JP2022024110A - 音声認識方法、装置、電子機器及び記憶媒体 - Google Patents

音声認識方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022024110A
JP2022024110A JP2021188138A JP2021188138A JP2022024110A JP 2022024110 A JP2022024110 A JP 2022024110A JP 2021188138 A JP2021188138 A JP 2021188138A JP 2021188138 A JP2021188138 A JP 2021188138A JP 2022024110 A JP2022024110 A JP 2022024110A
Authority
JP
Japan
Prior art keywords
information
semantic
target
acquired
control command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021188138A
Other languages
English (en)
Other versions
JP7309818B2 (ja
Inventor
ヂェン ウー,
Zhen Wu
ヂョウ,マオレン
Maoren Zhou
ワン,ジージェン
Zhijian Wang
ヤーフォン ツイ,
Yafeng Cui
ユーファン ウー,
Yufang Wu
チン ジュ,
Qin Qu
ビン リウ,
Bing Liu
ジャシャン ゲ,
Jiaxiang Ge
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022024110A publication Critical patent/JP2022024110A/ja
Application granted granted Critical
Publication of JP7309818B2 publication Critical patent/JP7309818B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声認識の精度を向上させる音声認識方法、装置、電子機器及び記憶媒体を提供する。【解決手段】音声認識方法は、取得されたターゲット音声情報に応答してターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するステップと、状態情報及びコンテキスト情報に基づいてターゲット音声情報の意味完全性を計算するステップと、意味完全性に対応するモニタリング期間を決定しモニタリング期間内に音声情報をモニタリングするステップと、モニタリング期間内に音声情報がモニタリングされなかった場合ターゲット音声情報に基づいて音声認識を行うステップと、を含む。【選択図】図1

Description

本願は、人工知能技術の分野における深層学習技術の分野及び音声技術の分野に関し、特に音声認識方法、装置、電子機器及び記憶媒体に関する。
人工知能技術の発展に伴い、スマートスピーカーやスマートロボットなどのスマートホーム製品も発展し、ユーザは音声情報の入力に基づいて関連製品の動作を制御でき、例えば、ユーザはスマートスピーカーに「音楽を開く」という音声を入力すると、スマートスピーカーは音楽アプリケーションをオープンするという操作を実行する。
関連技術では、完全な音声情報を取得するために、音声情報に対してエンドポイント検出を行い、すなわち取得された音声情報の一時停止期間(ミュート期間とも理解できる)を検出し、一時停止期間が一定値に達した後、完全な音声情報が取得されたと見なされるが、このように音声情報が完全であるか否かを決定する方式は、明らかに制限が厳しく、音声情報の取得が不完全になり、音声認識の精度が低い可能性がある。
本願は、多次元パラメータに基づいて、取得された音声情報の意味完全性を決定し、意味完全性に基づいて音声情報の検出期間を柔軟に調整し、音声情報の切断を回避し、音声認識の精度を向上させるための音声認識方法、装置、電子機器及び記憶媒体を提供する。
第1の態様によれば、音声認識方法を提供し、取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するステップと、前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するステップと、前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするステップと、前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うステップと、を含む。
第2の態様によれば、音声認識装置を提供し、取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するための取得モジュールと、前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するための計算モジュールと、前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするためのモニタリングモジュールと、前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うための音声認識モジュールと、を備える。
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが上記の第1の態様に記載の音声認識方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに上記の第1の態様に記載の音声認識方法を実行させる。
第5の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の第1の態様に記載の音声認識方法を実現する。
第6の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記の第1の態様に記載の音声認識方法を実現する。
本願により提供される実施例は、少なくとも以下の有益な技術的効果を有する。
取得されたターゲット音声情報に応答して、ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得し、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算し、さらに、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングし、最後、モニタリング期間内に音声情報がモニタリングされなかった場合、ターゲット音声情報に基づいて音声認識を行う。これにより、多次元パラメータに基づいて、取得された音声情報の意味完全性を決定し、意味完全性に基づいて音声情報の検出期間を柔軟に調整し、音声情報の切断を回避し、音声認識の精度を向上させる。
なお、この部分に記載されている内容は、本開示の実施例の肝心な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明を通じて容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本願の第1の実施例に係る音声認識方法の概略フローチャートである。 本願の第2の実施例に係る音声認識シーンの概略図である。 本願の第3の実施例に係る音声認識シーンの概略図であり、「我想听」とは、日本語で「聞きたい」という意味である。 本願の第4の実施例に係る音声認識シーンの概略図であり、「我想听」とは、日本語で「聞きたい」という意味であり、「稻香」とは、曲名で、日本語で「ダオシャン」という意味である。 本願の第5の実施例に係る音声認識シーンの概略図であり、「播放」とは、日本語で「再生する」という意味であり、「稻香」とは、曲名で、日本語で「ダオシャン」という意味である。 本願の第6の実施例に係る音声認識方法の概略フローチャートである。 本願の第7の実施例に係る音声認識方法の概略フローチャートである。 本願の第8の実施例に係る音声認識シーンの概略図である。 本願の第9の実施例に係る音声認識方法の概略フローチャートである。 本願の第10の実施例に係る音声認識装置の構造ブロック図である。 本願の第11の実施例に係る音声認識装置の構造ブロック図である。 本願の第12の実施例に係る音声認識装置の構造ブロック図である。 本願の実施例に係る音声認識方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本願の例示的な実施例を説明し、理解を容易にするためにその中には本願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすく且つ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
既存の音声認識シーンでは、ミュート期間が一定値を超えているか否かに基づいて音声情報のエンドポイントを検出することで、音声情報の取得が不完全になるという背景技術に記載の技術的問題に対して、本願は、音声情報の完全性に基づいてミュート期間を柔軟に決定するという技術案を提供する。
以下は具体的な実施例と組み合わせて本願の実施例に係る音声認識方法、装置、電子機器及び記憶媒体を説明し、ここで、本願の実施例に係る音声認識方法の応用主体は、スマートスピーカー、スマートフォン、スマートロボットなど、音声認識機能を備える任意の電子機器であってもよい。
図1は、本願の一実施例に係る音声認識方法のフローチャートであり、図1に示すように、当該方法はステップ101~104を含む。
ステップ101において、取得されたターゲット音声情報に応答して、ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得する。
本実施例では、ターゲット音声情報が検出された後、当該ターゲット音声情報を判断するために、ターゲット音声に対応するアプリケーションの状態情報及びコンテキスト情報を取得する。
本実施例では、アプリケーションの状態情報は、現在実行されているアプリケーションの状態情報を含むが、これに限定されず、例えば、スマートスピーカーについて、アプリケーションの状態情報は音楽再生アプリケーションの現在の状態情報(一時停止、再生など)を含み、コンテキスト情報は前回又は複数回前に関連するスマート機器に送信された音声情報、前回又は複数回前に音声情報に対するスマート機器の応答情報、及び時間に基づいて決定された音声情報と応答情報との対応関係等を含むが、これらに限定されず、例えば、スマートスピーカーについて、コンテキスト情報は、前の音声情報である「再生してください」及び前回の音声情報に対する応答情報である「この歌を再生するか」などである。
実際に実行するプロセスにおいて、音声情報が検出された後、当該音声情報のミュート期間が一定値に達したと検出された場合、ターゲット音声情報が取得されたと見なされ、取得されたターゲット音声情報はユーザが音声情報の入力を一時停止する位置に対応することを確保するために、当該一定値は時間の短い経験値であってもよい。
ステップ102において、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算する。
理解しやすいことは、状態情報もコンテキスト情報も、音声が完全であるか否かを決定し、例えば、ターゲット音声情報が「再生する」である場合、状態情報が音楽の一時停止の状態である場合、当該ターゲット音声情報が完全な意味表現であるということは明らかであり、また例えば、コンテキスト情報が「この曲は醜すぎるため変えたい」である場合、ターゲット音声情報である「再生する」は、不完全な意味表現であると示される。
そのため、本実施例では、状態情報及びコンテキスト情報のような多次元情報と組み合わせて、ターゲット音声情報の意味完全性を計算する。
ステップ103において、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングする。
ここで、モニタリング期間は、音声情報のモニタリングを継続するための待機期間として理解されてもよく、ユーザが後続の音声情報を入力するのを待っているミュート期間として理解されてもよい。図2を参照し、ターゲット音声情報「シャットダウン」を取得すると、取得されたターゲット音声情報が不完全であることを回避するために、300ms待ち続け、ここでの300msはモニタリング期間として理解されてもよい。
本実施例では、意味完全性が高いほど、ターゲット音声情報の表現がほぼ完成していることを示し、このとき、応答速度を向上させるために、モニタリング期間を短くするか、さらにゼロにする必要があることは明らかであり、逆に、意味完全性が低いほど、ターゲット音声情報の表現が完成しないことを示し、このとき、取得された音声情報の完全性を確保するために、モニタリング期間を長くする必要があることは明らかであり、そのため、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングする。
なお、異なる応用シーンにおいて、前記意味完全性に対応するモニタリング期間を決定する方式が異なり、以下、例示的に説明する。
例1:
本例では、意味完全性とモニタリング期間との対応関係を予め設定することにより、予め設定された対応関係をクエリして、意味完全性に対応するモニタリング期間を取得する。
例2:
本例では、モニタリング期間の基準値に対応する基準意味完全性を予め設定し、当該モニタリング期間の基準値を予め設定されたデフォルトのモニタリング期間として理解することができ、現在のターゲット音声情報の意味完全性と基準意味完全性との差分値を計算し、当該差分値に基づいてモニタリング期間の調整値を決定し、ここで、意味差分値はモニタリング期間の調整値に反比例し、モニタリング期間の調整値とモニタリング期間の基準値との合計をモニタリング期間として計算する。
ステップ104において、モニタリング期間内に音声情報がモニタリングされなかった場合、ターゲット音声情報に基づいて音声認識を行う。
本実施例では、モニタリング期間内に音声情報がモニタリングされなかった場合、ユーザが入力を完了したことを示し、これにより、ターゲット音声情報に基づいて音声認識を行う。例えば、ターゲット音声情報をテキスト情報に変換し、テキスト情報のキーワードを抽出し、キーワードを予め設定された制御命令とマッチングし、マッチングに成功した制御命令に基づいて制御処理を行う。
本願の一実施例では、モニタリング期間内に音声情報がモニタリングされた場合、検出された音声情報及びターゲット音声情報を新たなターゲット音声情報とし、新たなターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得することにより、新たな音声情報の意味完全性等を継続的に判断し、ストリーミング判断を実現する。
これにより、本願の実施例では、ターゲット音声情報の意味完全性に適合し、対応するモニタリング期間を決定し、音声認識効率とターゲット音声情報の取得の完全性を両立させる。例を挙げて言うと、図3に示すように、中国語のターゲット音声情報が「我想听(聞きたい)」である場合、システムのデフォルトの300ms後に取得が完了したと見なされる場合、「我想听」に基づいて対応する制御命令を認識できない可能性があり、本願の実施例に係る音声認識方法によれば、図4に示すように、ターゲット音声情報の完全性に基づいて、300ms後に1.6Sを継続的にミュートしてから、中国語の音声情報「稻香(ダオシャン)」をモニタリングすると、完全な音声情報を取得することは明らかであり、ユーザに「稻香」という音楽を再生する操作を実行する。
当然のことながら、中国語のターゲット音声情報である「播放(再生する)」が取得された後のモニタリング期間内に、「稻香」がモニタリングされた後、状態情報及びコンテキストに基づいてその「播放稻香(ダオシャンを再生する)」の意味完全性を判断し続け、完全性が高くない場合、図5に示すように、「稻香」の後のモニタリング期間を決定し続け、ストリーミング判断を実現する。
要約すると、本願の実施例に係る音声認識方法は、取得されたターゲット音声情報に応答して、ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得し、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算し、さらに、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングし、最後、モニタリング期間内に音声情報がモニタリングされなかった場合、ターゲット音声情報に基づいて音声認識を行う。これにより、多次元パラメータに基づいて、取得された音声情報の意味完全性を決定し、意味完全性に基づいて音声情報の検出期間を柔軟に調整し、音声情報の切断を回避し、音声認識の精度を向上させる。
上記の実施例に基づいて、異なる応用シーンにおいて、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算する方式は異なり、以下、例示的に説明する。
例1:
本例では、図6に示すように、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算するステップは、ステップ601~604を含む。
ステップ601において、状態情報に対応する少なくとも1つの候補状態情報を決定し、ここで、各候補状態情報は状態情報の次の候補動作の状態情報である。
理解しやすいように、各状態情報はアプリケーションの実行ロジックに基づいて、それに対応する次の候補動作の状態情報も決定でき、例えば、アプリケーションの状態情報がオフである場合、次の実行可能な候補動作の状態情報は必ずオンであり、また例えば、アプリケーションの状態が「音楽を再生する」である場合、次の実行可能な候補動作の状態情報は「一時停止する」、「もう一度再生する」、「サウンドアップする」、「早送りする」などである。
そのため、本実施例では、状態情報に対応するアプリケーションの実行ロジックに基づいて、状態情報に対応する少なくとも1つの候補状態情報を決定し、ここで、各候補状態情報は状態情報の次の候補動作の状態情報である。ここで、実行ロジックは予め標定されてもよく、当該実行ロジックは、動作と動作との間の状態情報に対応するノード順序等を含むことができる。
ステップ602において、各候補状態情報が実行可能な少なくとも1つの第1の制御命令情報を取得し、ターゲット音声情報と各第1の制御命令情報との第1の意味類似度を計算する。
本実施例では、各候補状態情報が実行可能な少なくとも1つの第1の制御命令を取得し、当該第1の制御命令は予め設定された対応関係をクエリすることによって取得することができ、当該予め設定された対応関係には候補状態情報と第1の制御命令との対応関係が含まれる。例を挙げて言うと、候補状態情報が「音楽を再生する」である場合、対応する第1の制御命令は「音楽を再生する」を含むことができ、状態情報が「一時停止する」である場合、対応する第1の制御命令は「一時停止する」、「停止する」、「しばらく静かにする」などを含むことができる。
さらに、ターゲット音声情報が第1の制御命令の1つに属しているか否かを決定するように、ターゲット音声情報と各第1の制御命令との第1の意味類似度を計算する。
ステップ603において、コンテキスト情報に対応する少なくとも1つの第2の制御命令情報を決定し、ターゲット音声情報と各第2の制御命令情報との第2の意味類似度を計算する。
ここで、上記の第2の制御命令情報はコンテキスト情報に対応し、コンテキスト情報にはスマートスピーカーからフィードバックされた「音楽を再生するか」という応答メッセージを含む場合、対応する第2の制御命令は「再生する」、「いいえ」などである。
いくつかの可能な例では、大量のサンプルデータに基づいてトレーニングして学習して深層学習モデルを予め取得でき、当該深層学習モデルの入力はコンテキスト情報であり、出力は第2の制御命令であり、それにより、当該深層学習モデルに基づいて対応する第2の制御命令情報を取得することができる。
当然のことながら、第1の意味類似度のみに基づいてターゲット音声情報の意味完全性を決定することは明らかに信頼できず、したがって、本実施例では、さらにコンテキスト情報に対応する少なくとも1つの第2の制御命令情報を決定し、ターゲット音声情報と各第2の制御命令情報との第2の意味類似度を計算する。
ステップ604において、第1の意味類似度及び第2の意味類似度に基づいて、ターゲット音声情報の意味完全性を計算する。
本実施例では、第1の意味類似度及び第2の意味類似度に基づいて、ターゲット音声情報の意味完全性を計算する。
いくつかの可能な例では、第1の意味類似度が第1の閾値より大きいターゲット第1の制御命令情報を取得し、第2の意味類似度が第2の閾値より大きいターゲット第2の制御命令情報を取得し、ターゲット第1の制御命令情報とターゲット第2の制御命令情報との意味類似度を計算して、意味完全性を取得し、すなわち、ターゲット第1の制御命令情報とターゲット第2の制御命令情報との意味類似度を、直接ターゲット音声情報の意味完全性とする。
本例では、第1の制御命令情報が取得されず、第2の制御情報が取得された場合、第1の閾値と第1の意味類似度との第1の差分値を計算し、第1の差分値と第1の閾値との第1の比率を計算し、第2の意味類似度と第1の比率との第1の積値を取得して、意味完全性を取得し、すなわち、本例では、第1の意味類似度と第1の閾値との差により、第2の意味類似度を弱めることで、候補状態情報の第1の制御命令に属しているが、コンテキスト情報に適合しないという誤判断を回避する。
本例では、第2の制御命令情報が取得されず、第1の制御情報が取得された場合、第2の閾値と第2の意味類似度との第2の差分値を計算し、第2の差分値と第2の閾値との第2の比率を計算し、第1の意味類似度と第2の比率との第2の積値を取得して、意味完全性を取得する。すなわち、本例では、第2の意味類似度と第2の閾値との差により、第1の意味類似度を弱めることで、コンテキスト情報に適合するが、候補状態情報の第1の制御命令に属していないという誤判断を回避する。
本例では、第2の制御命令情報が取得されず、第1の制御情報も取得されなかった場合、第1の意味類似度と第2の意味類似度との第3の差分値を計算し、第3の差分値の絶対値を計算して、意味完全性を取得する。このとき、第3の差分値は通常、低い値であり、このときのターゲット音声情報の意味が完全ではないことを示す。
本例では、第1の意味類似度及び第2の意味類似度はいずれも比較的高いことは、ターゲット意味情報が完全な意味表現である可能性が高いことを示す。第1の意味類似度が高いが、第2の意味類似度が高くなく、或いは、第2の意味類似度が高いが、第1の意味類似度が高くない場合、意味表現が完全ではない可能性があることを示す。そのため、第1の意味類似度と第2の意味類似度を組み合わせて意味完全性を共に決定することにより、決定の信頼性を確保する。
例2:
本例では、図7に示すように、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算するステップは、ステップ701~704を含む。
ステップ701において、状態情報の第1の特性値を取得する。
ステップ702において、コンテキスト情報の第2の特性値を取得する。
ステップ703において、ターゲット音声情報の第3の特性値を取得する。
ステップ704において、第1の特性値、第2の特性値及び第3の特性値を予め設定された深層学習モデルに入力して、意味完全性を取得する。
ここで、予め設定された深層学習モデルは、第1の特性値、第2の特性値及び第3の特性値と、意味完全性との対応関係を予め学習する。
当該予め設定された深層学習モデルは、DNNモデル、LSTMモデルなどを含むが、これらに限定されず、いくつかの例では、第1の特性値、第2の特性値及び第3の特性値を予め設定された深層学習モデルに入力する前に、第1の特性値、第2の特性値及び第3の特性値を予め設定された深層学習モデルに入力して正規化処理を行い、正規化された値を予め設定された深層学習モデルに入力することができる。
当然のことながら、いくつかの可能な例では、さらにターゲット音声情報の自体の意味完全性を抽出することができ、自体の意味完全性は品詞分析などに基づいて取得することができ、図8に示すように、自体の意味完全性を第1の特性値、第2の特性値及び第3の特性値と共に対応する深層学習モデルに入力する。
本願の一実施例では、ユーザは発話速度が比較的遅い子供、又はそれ自体が言語の壁がある人、又はスマート機器に慣れていない新たなユーザの場合、情報の表現が遅くなる可能性があることを考慮する。ユーザが新規登録ユーザで子供である場合、履歴行動に基づいてユーザが機器の使用に熟練しないことを分析し、且つ履歴行動には多くの躊躇の表現があり、機器が再生するか一時停止するかを問われる状態ではなく、この時、ユーザの中間結果が「再生する」と表示されていることが検出され、表現が不完全である可能性が非常に高いであり、このとき、ミュート期間を延長し、話し終わるまでユーザを待ち続ける必要がある。
そのため、本実施例では、さらにユーザ画像情報と組み合わせて意味完全性を決定してもよく、ここで、ユーザ画像情報はユーザの年齢、ユーザの身元、ユーザの登録期間などを含む。
本例では、図9に示すように、意味完全性に対応するモニタリング期間を決定するステップの前に、ステップ901~905をさらに含む。
ステップ901において、ターゲット音声情報の声紋特性情報を抽出する。
ここで、声紋特性情報を抽出する操作は従来技術に基づいて実現することができ、ここでは説明を省略する。ここで、声紋特性情報は音色、オーディオなどを含むことができる。
ステップ902において、声紋特性情報に基づいてユーザ画像情報を決定する。
本実施例では、ユーザ画像情報と声紋特性情報との対応関係を予め記憶しておき、当該対応関係に基づいて声紋特性情報に対応するユーザ画像情報を決定する。
ステップ903において、ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断する。
本実施例では、ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断し、ここで、予め設定されたユーザ画像情報は、意味表現で躊躇したりゆっくり話したりする可能性のあるユーザなどである。
ステップ904において、予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定する。
本実施例では、予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定する。
ここで、深層学習モデル予めトレーニングするか、又は対応関係の方式により、ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定することができる。
ステップ905において、検出期間と調整期間との合計を計算し、合計に基づいてモニタリング期間を更新する。
本実施例では、検出期間と調整期間との合計を計算し、合計に基づいてモニタリング期間を更新し、ここで、検出期間は正値であっても負値であってもよい。
本願の一実施例では、ターゲット音声情報自体の意味に基づいてそれが完全な意味表現であることを検出すると、状態情報及びコンテキスト情報に基づいてターゲット音声情報の意味完全性を計算せずに、モニタリングプロセスを直接傍受する可能性がある。
したがって、本願の一実施例では、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算するステップの前に、ターゲット音声情報が状態情報及びコンテキスト情報に対応する予め設定された完全な意味情報に属しているか否かを判断し、属している場合、ターゲット音声情報を直接認識対象の音声情報とするステップをさらに含む。
要約すると、本願の実施例に係る音声認識方法は、シーンの違いに応じて、異なる方式を柔軟に採用して状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算することにより、音声認識の精度を向上させることに役立つ。
本願の実施例によれば、本願は、音声認識装置をさらに提供する。図10は、本願の一実施例に係る音声認識装置の概略構成図であり、図10に示すように、当該音声認識装置は、取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するための取得モジュール1010と、前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するための計算モジュール1020と、前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするためのモニタリングモジュール1030と、前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うための音声認識モジュール1040と、を備える。
本願の一実施例では、モニタリングモジュール1030は、具体的には、予め設定された対応関係をクエリし、前記意味完全性に対応するモニタリング期間を取得する。
なお、音声認識方法に対する上記の説明は、本願の実施例に係る音声認識装置にも適用し、その実現原理は類似し、ここでは説明を省略する。
要約すると、本願の実施例に係る音声認識装置は、取得されたターゲット音声情報に応答して、ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得し、状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算し、さらに、意味完全性に対応するモニタリング期間を決定し、モニタリング期間内に音声情報をモニタリングし、最後、モニタリング期間内に音声情報がモニタリングされなかった場合、ターゲット音声情報に基づいて音声認識を行う。これにより、多次元パラメータに基づいて、取得された音声情報の意味完全性を決定し、意味完全性に基づいて音声情報の検出期間を柔軟に調整し、音声情報の切断を回避し、音声認識の精度を向上させる。
本願の一実施例では、図11に示すように、音声認識装置は、取得モジュール1110、計算モジュール1120、モニタリングモジュール1130及び音声認識モジュール1140を備え、ここで、取得モジュール1110、計算モジュール1120、モニタリングモジュール1130及び音声認識モジュール1140は図10における取得モジュール1010、計算モジュール1020、モニタリングモジュール1030及び音声認識モジュール1040と同様であり、ここでは説明を省略し、計算モジュール1120は、状態情報に対応する少なくとも1つの候補状態情報を決定するための決定ユニット1121であって、ここで、各候補状態情報は状態情報の次の候補動作の状態情報である決定ユニット1121と、各候補状態情報が実行可能な少なくとも1つの第1の制御命令情報を取得し、ターゲット音声情報と各第1の制御命令情報との第1の意味類似度を計算するための第1の計算ユニット1122と、コンテキスト情報に対応する少なくとも1つの第2の制御命令情報を決定し、ターゲット音声情報と各第2の制御命令情報との第2の意味類似度を計算するための第2の計算ユニット1123と、第1の意味類似度及び第2の意味類似度に基づいて、ターゲット音声情報の意味完全性を計算するための第3の計算ユニット1124と、を備える。
本実施例では、第3の計算ユニット1124は、具体的には、前記第1の意味類似度が第1の閾値より大きいターゲット第1の制御命令情報を取得し、前記第2の意味類似度が第2の閾値より大きいターゲット第2の制御命令情報を取得し、前記ターゲット第1の制御命令情報と前記ターゲット第2の制御命令情報との意味類似度を計算して、前記意味完全性を取得する。
本実施例では、第3の計算ユニット1124は、具体的には、前記第1の制御命令情報が取得されず、前記第2の制御情報が取得された場合、前記第1の閾値と前記第1の意味類似度との第1の差分値を計算し、前記第1の差分値と前記第1の閾値との第1の比率を計算し、前記第2の意味類似度と前記第1の比率との第1の積値を取得して、前記意味完全性を取得する。
本実施例では、第3の計算ユニット1124は、具体的には、前記第2の制御命令情報が取得されず、前記第1の制御情報が取得された場合、前記第2の閾値と前記第2の意味類似度との第2の差分値を計算し、前記第2の差分値と前記第2の閾値との第2の比率を計算し、前記第1の意味類似度と前記第2の比率との第2の積値を取得して、前記意味完全性を取得する。
本実施例では、第3の計算ユニット1124は、具体的には、前記第2の制御命令情報が取得されず、前記第1の制御情報も取得されなかった場合、前記第1の意味類似度と前記第2の意味類似度との第3の差分値を計算し、前記第3の差分値の絶対値を計算して、前記意味完全性を取得する。
本願の一実施例では、計算モジュール1120は、具体的には、前記状態情報の第1の特性値を取得し、前記コンテキスト情報の第2の特性値を取得し、前記ターゲット音声情報の第3の特性値を取得し、前記第1の特性値、前記第2の特性値及び前記第3の特性値を予め設定された深層学習モデルに入力して、前記意味完全性を取得し、ここで、前記予め設定された深層学習モデルは、前記第1の特性値、前記第2の特性値及び前記第3の特性値と、前記意味完全性との対応関係を予め学習する。
本願の一実施例では、図12に示すように、音声認識装置は、取得モジュール1210、計算モジュール1220、モニタリングモジュール1230、音声認識モジュール1240、抽出モジュール1250、第1の決定モジュール1260、判断モジュール1270、第2の決定モジュール1280及び更新モジュール1290を備え、ここで、取得モジュール1210、計算モジュール1220、モニタリングモジュール1230及び音声認識モジュール1240は、図10における取得モジュール1010、計算モジュール1020、モニタリングモジュール1030及び音声認識モジュール1040と同様であり、ここでは説明を省略し、ここで、抽出モジュール1250は、前記ターゲット音声情報の声紋特性情報を抽出し、第1の決定モジュール1260は、前記声紋特性情報に基づいてユーザ画像情報を決定し、判断モジュール1270は、前記ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断し、第2の決定モジュール1280は、前記予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、前記ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定し、更新モジュール1290は、前記検出期間と前記調整期間との合計を計算し、前記合計に基づいて前記モニタリング期間を更新する。
なお、音声認識方法に対する上記の説明は、本願の実施例の音声認識装置にも適用し、その実現原理は類似し、ここでは説明を省略する。
要約すると、本願の実施例に係る音声認識装置は、シーンの違いに応じて、異なる方式を柔軟に採用して状態情報及びコンテキスト情報に基づいて、ターゲット音声情報の意味完全性を計算することにより、音声認識の精度を向上させることに役立つ。
本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本願の実施例によれば、本願は、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本願によって提供される音声認識方法を実現する。
図13に示すように、それは本願の実施例に係る音声認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本願の実現を制限することを意図したものではない。
図13に示すように、当該電子機器は、1つ又は複数のプロセッサ1301と、メモリ1302と、高速インタフェース及び低速インタフェースを備える各コンポーネントを接続するためのインタフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方法で取り付けられてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力/出力装置(例えば、インタフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に用いることができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図13では、1つのプロセッサ1301を例とする。
メモリ1302は、本願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも1つのプロセッサが本願により提供される音声認識方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本願により提供される音声認識方法を実行させるためのコンピュータ命令が記憶されている。
メモリ1302は、非一時的なコンピュータ読み取り可能な記憶媒体として、本願の実施例における音声認識方法に対応するプログラム命令/モジュールのような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ1301は、メモリ1302に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例における音声認識方法を実現する。
メモリ1302は、プログラムストレージエリアとデータストレージエリアと、を含むことができ、ここで、プログラムストレージエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、音声認識方法に係る電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ1302は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ1302は、プロセッサ1301に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して音声認識方法に係る電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
音声認識方法に係る電子機器は、入力装置1303と出力装置1304とをさらに備えることができる。プロセッサ1301、メモリ1302、入力装置1303、及び出力装置1304は、バス又は他の方式を介して接続することができ、図13では、バスを介して接続することを例とする。
入力装置1303は、入力された数字又は文字情報を受信し、音声認識方法に係る電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1304は、表示機器、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを備えることができる。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態で、表示機器は、タッチスクリーンであってもよい。
ここで説明したシステム及び技術の実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせによって実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、すなわち、本願はさらに、コンピュータプログラムを提供し、当該コンピュータプログラムは、プロセッサによって実行されるとき、上記の実施例に記載の音声認識方法を実現し、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティング装置によって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションを行う)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアント及びサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションを行う。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであり、クラウド計算サーバ又はクラウドホストとも呼ばれ、クラウド計算サーバシステムにおけるホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)において、管理の難易度が大きく、業務拡張性が弱いという欠点を解決する。サーバは分散システムのサーバであってもよく、又は、ブロックリンクを結合したサーバであってもよい。
上記に示される様々な形態のフローを用い、ステップを並べ替え、追加、又は削除することができる。例えば、本願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (22)

  1. 取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するステップと、
    前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するステップと、
    前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするステップと、
    前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うステップと、
    を含む音声認識方法。
  2. 前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するステップが、
    前記状態情報に対応する少なくとも1つの候補状態情報を決定するステップであって、各前記候補状態情報は前記状態情報の次の候補動作の状態情報であるステップと、
    各前記候補状態情報が実行可能な少なくとも1つの第1の制御命令情報を取得し、前記ターゲット音声情報と各前記第1の制御命令情報との第1の意味類似度を計算するステップと、
    前記コンテキスト情報に対応する少なくとも1つの第2の制御命令情報を決定し、前記ターゲット音声情報と各前記第2の制御命令情報との第2の意味類似度を計算するステップと、
    前記第1の意味類似度及び前記第2の意味類似度に基づいて、前記ターゲット音声情報の意味完全性を計算するステップと、
    を含む請求項1に記載の方法。
  3. 前記第1の意味類似度及び前記第2の意味類似度に基づいて、前記ターゲット音声情報の意味完全性を計算するステップが、
    前記第1の意味類似度が第1の閾値より大きいターゲット第1の制御命令情報を取得するステップと、
    前記第2の意味類似度が第2の閾値より大きいターゲット第2の制御命令情報を取得するステップと、
    前記ターゲット第1の制御命令情報と前記ターゲット第2の制御命令情報との意味類似度を計算して、前記意味完全性を取得するステップと、
    を含む請求項2に記載の方法。
  4. 前記第1の制御命令情報が取得されず、前記第2の制御情報が取得された場合、前記第1の閾値と前記第1の意味類似度との第1の差分値を計算するステップと、
    前記第1の差分値と前記第1の閾値との第1の比率を計算するステップと、
    前記第2の意味類似度と前記第1の比率との第1の積値を取得して、前記意味完全性を取得するステップと、
    を含む請求項3に記載の方法。
  5. 前記第2の制御命令情報が取得されず、前記第1の制御情報が取得された場合、前記第2の閾値と前記第2の意味類似度との第2の差分値を計算するステップと、
    前記第2の差分値と前記第2の閾値との第2の比率を計算するステップと、
    前記第1の意味類似度と前記第2の比率との第2の積値を取得して、前記意味完全性を取得するステップと、
    を含む請求項3に記載の方法。
  6. 前記第2の制御命令情報が取得されず、前記第1の制御情報も取得されなかった場合、前記第1の意味類似度と前記第2の意味類似度との第3の差分値を計算するステップと、
    前記第3の差分値の絶対値を計算して、前記意味完全性を取得するステップと、
    を含む請求項3に記載の方法。
  7. 前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するステップが、
    前記状態情報の第1の特性値を取得するステップと、
    前記コンテキスト情報の第2の特性値を取得するステップと、
    前記ターゲット音声情報の第3の特性値を取得するステップと、
    前記第1の特性値、前記第2の特性値及び前記第3の特性値を予め設定された深層学習モデルに入力して、前記意味完全性を取得するステップと、
    を含み、
    前記予め設定された深層学習モデルが、前記第1の特性値、前記第2の特性値及び前記第3の特性値と、前記意味完全性との対応関係を予め学習する請求項1に記載の方法。
  8. 前記意味完全性に対応するモニタリング期間を決定するステップの前に、
    前記ターゲット音声情報の声紋特性情報を抽出するステップと、
    前記声紋特性情報に基づいてユーザ画像情報を決定するステップと、
    前記ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断するステップと、
    前記予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、前記ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定するステップと、
    前記検出期間と前記調整期間との合計を計算し、前記合計に基づいて前記モニタリング期間を更新するステップと、
    を含む請求項1に記載の方法。
  9. 前記意味完全性に対応するモニタリング期間を決定するステップが、
    予め設定された対応関係をクエリして、前記意味完全性に対応するモニタリング期間を取得するステップを含む請求項1に記載の方法。
  10. 取得されたターゲット音声情報に応答して、前記ターゲット音声情報に対応するアプリケーションの状態情報及びコンテキスト情報を取得するための取得モジュールと、
    前記状態情報及びコンテキスト情報に基づいて、前記ターゲット音声情報の意味完全性を計算するための計算モジュールと、
    前記意味完全性に対応するモニタリング期間を決定し、前記モニタリング期間内に音声情報をモニタリングするためのモニタリングモジュールと、
    前記モニタリング期間内に音声情報がモニタリングされなかった場合、前記ターゲット音声情報に基づいて音声認識を行うための音声認識モジュールと、
    を備える音声認識装置。
  11. 前記計算モジュールが、
    前記状態情報に対応する少なくとも1つの候補状態情報を決定するための決定ユニットであって、各前記候補状態情報は前記状態情報の次の候補動作の状態情報である決定ユニットと、
    各前記候補状態情報が実行可能な少なくとも1つの第1の制御命令情報を取得し、前記ターゲット音声情報と各前記第1の制御命令情報との第1の意味類似度を計算するための第1の計算ユニットと、
    前記コンテキスト情報に対応する少なくとも1つの第2の制御命令情報を決定し、前記ターゲット音声情報と各前記第2の制御命令情報との第2の意味類似度を計算するための第2の計算ユニットと、
    前記第1の意味類似度及び前記第2の意味類似度に基づいて、前記ターゲット音声情報の意味完全性を計算するための第3の計算ユニットと、
    を備える請求項10に記載の装置。
  12. 前記第3の計算ユニットが、
    前記第1の意味類似度が第1の閾値より大きいターゲット第1の制御命令情報を取得し、
    前記第2の意味類似度が第2の閾値より大きいターゲット第2の制御命令情報を取得し、
    前記ターゲット第1の制御命令情報と前記ターゲット第2の制御命令情報との意味類似度を計算して、前記意味完全性を取得する請求項11に記載の装置。
  13. 前記第3の計算ユニットが、
    前記第1の制御命令情報が取得されず、前記第2の制御情報が取得された場合、前記第1の閾値と前記第1の意味類似度との第1の差分値を計算し、
    前記第1の差分値と前記第1の閾値との第1の比率を計算し、
    前記第2の意味類似度と前記第1の比率との第1の積値を取得して、前記意味完全性を取得する請求項11に記載の装置。
  14. 前記第3の計算ユニットが、
    前記第2の制御命令情報が取得されず、前記第1の制御情報が取得された場合、前記第2の閾値と前記第2の意味類似度との第2の差分値を計算し、
    前記第2の差分値と前記第2の閾値との第2の比率を計算し、
    前記第1の意味類似度と前記第2の比率との第2の積値を取得して、前記意味完全性を取得する請求項11に記載の装置。
  15. 前記第3の計算ユニットが、
    前記第2の制御命令情報が取得されず、前記第1の制御情報も取得されなかった場合、前記第1の意味類似度と前記第2の意味類似度との第3の差分値を計算し、
    前記第3の差分値の絶対値を計算して、前記意味完全性を取得する請求項11に記載の装置。
  16. 前記計算モジュールが、
    前記状態情報の第1の特性値を取得し、
    前記コンテキスト情報の第2の特性値を取得し、
    前記ターゲット音声情報の第3の特性値を取得し、
    前記第1の特性値、前記第2の特性値及び前記第3の特性値を予め設定された深層学習モデルに入力して、前記意味完全性を取得し、
    前記予め設定された深層学習モデルは、前記第1の特性値、前記第2の特性値及び前記第3の特性値と、前記意味完全性との対応関係を予め学習する請求項10に記載の装置。
  17. 前記ターゲット音声情報の声紋特性情報を抽出するための抽出モジュールと、
    前記声紋特性情報に基づいてユーザ画像情報を決定するための第1の決定モジュールと、
    前記ユーザ画像情報が予め設定されたユーザ画像情報に属しているか否かを判断するための判断モジュールと、
    前記予め設定されたユーザ画像情報におけるターゲット予め設定されたユーザ画像情報に属している場合、前記ターゲット予め設定されたユーザ画像情報に対応する調整期間を決定するための第2の決定モジュールと、
    前記検出期間と前記調整期間との合計を計算し、前記合計に基づいて前記モニタリング期間を更新するための更新モジュールと、
    を備える請求項10に記載の装置。
  18. 前記モニタリングモジュールが、
    予め設定された対応関係をクエリして、前記意味完全性に対応するモニタリング期間を取得する請求項10に記載の装置。
  19. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサに通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行される命令が記憶され、前記命令が、前記少なくとも1つのプロセッサが請求項1から9のいずれか一項に記載の音声認識方法を実行できるように、前記少なくとも1つのプロセッサによって実行される電子機器。
  20. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1から9のいずれか一項に記載の音声認識方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  21. コンピュータプログラムを含むコンピュータプログラム製品であって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1から9のいずれか一項に記載の音声認識方法を実現するコンピュータプログラム製品。
  22. プロセッサによって実行される場合、請求項1から9のいずれか一項に記載の音声認識方法を実現するコンピュータプログラム。

JP2021188138A 2020-11-24 2021-11-18 音声認識方法、装置、電子機器及び記憶媒体 Active JP7309818B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011333455.7A CN112382279B (zh) 2020-11-24 2020-11-24 语音识别方法、装置、电子设备和存储介质
CN202011333455.7 2020-11-24

Publications (2)

Publication Number Publication Date
JP2022024110A true JP2022024110A (ja) 2022-02-08
JP7309818B2 JP7309818B2 (ja) 2023-07-18

Family

ID=74588431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021188138A Active JP7309818B2 (ja) 2020-11-24 2021-11-18 音声認識方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20220068267A1 (ja)
JP (1) JP7309818B2 (ja)
CN (1) CN112382279B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022198365A1 (zh) * 2021-03-22 2022-09-29 华为技术有限公司 一种语音控制方法及装置
CN113903329B (zh) * 2021-09-08 2022-08-23 北京百度网讯科技有限公司 语音处理方法、装置、电子设备及存储介质
CN114582333A (zh) * 2022-02-21 2022-06-03 中国第一汽车股份有限公司 语音识别方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
JP2017078848A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
JP2018504623A (ja) * 2015-09-03 2018-02-15 グーグル エルエルシー 強化された発話エンドポイント指定
WO2019142427A1 (ja) * 2018-01-16 2019-07-25 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020140210A (ja) * 2019-02-28 2020-09-03 ネイバー コーポレーションNAVER Corporation 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US10127911B2 (en) * 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10297254B2 (en) * 2016-10-03 2019-05-21 Google Llc Task initiation using long-tail voice commands by weighting strength of association of the tasks and their respective commands based on user feedback
CN107195303B (zh) * 2017-06-16 2021-08-20 云知声智能科技股份有限公司 语音处理方法及装置
US10515625B1 (en) * 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
US10586532B1 (en) * 2019-01-28 2020-03-10 Babylon Partners Limited Flexible-response dialogue system through analysis of semantic textual similarity
CN111462741B (zh) * 2020-03-02 2024-02-02 北京声智科技有限公司 语音数据处理方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
JP2018504623A (ja) * 2015-09-03 2018-02-15 グーグル エルエルシー 強化された発話エンドポイント指定
JP2017078848A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング
WO2019142427A1 (ja) * 2018-01-16 2019-07-25 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020140210A (ja) * 2019-02-28 2020-09-03 ネイバー コーポレーションNAVER Corporation 会話システムにおいて意図が不明確なクエリを処理する方法およびシステム

Also Published As

Publication number Publication date
US20220068267A1 (en) 2022-03-03
CN112382279A (zh) 2021-02-19
CN112382279B (zh) 2021-09-14
JP7309818B2 (ja) 2023-07-18

Similar Documents

Publication Publication Date Title
JP7130194B2 (ja) ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
KR102320708B1 (ko) 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP7091430B2 (ja) インタラクション情報推薦方法及び装置
JP2022024110A (ja) 音声認識方法、装置、電子機器及び記憶媒体
KR102331254B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
US11457061B2 (en) Creating a cinematic storytelling experience using network-addressable devices
JP7281521B2 (ja) 音声制御方法及び音声制御装置、電子機器並びに記憶媒体
JP7017598B2 (ja) スマートデバイスのデータ処理方法、装置、機器及び記憶媒体
CN111651578B (zh) 人机对话方法、装置及设备
JP7200277B2 (ja) ワードスロットを識別するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR102358831B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP2022020574A (ja) ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体
US12112746B2 (en) Method and device for processing voice interaction, electronic device and storage medium
US20210096814A1 (en) Speech control method, speech control device, electronic device, and readable storage medium
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
US20210097991A1 (en) Speech control method and apparatus, electronic device, and readable storage medium
KR102694139B1 (ko) 음성 처리 방법 및 장치
EP3799038A1 (en) Speech control method and device, electronic device, and readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211118

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230705

R150 Certificate of patent or registration of utility model

Ref document number: 7309818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150