JP6771805B2 - 音声認識方法、電子機器、及びコンピュータ記憶媒体 - Google Patents

音声認識方法、電子機器、及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP6771805B2
JP6771805B2 JP2019539928A JP2019539928A JP6771805B2 JP 6771805 B2 JP6771805 B2 JP 6771805B2 JP 2019539928 A JP2019539928 A JP 2019539928A JP 2019539928 A JP2019539928 A JP 2019539928A JP 6771805 B2 JP6771805 B2 JP 6771805B2
Authority
JP
Japan
Prior art keywords
information
voiceprint
voice
local
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019539928A
Other languages
English (en)
Other versions
JP2020505643A (ja
Inventor
秋生 万
秋生 万
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2020505643A publication Critical patent/JP2020505643A/ja
Application granted granted Critical
Publication of JP6771805B2 publication Critical patent/JP6771805B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Description

本願は、2017年2月15日に中国特許庁に提出された、出願番号が2017100821115であり、発明の名称が「音声認識方法及び音声認識装置」である中国特許出願の優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。
本発明は、コンピュータ情報処理技術分野に関し、特に、音声認識方法、電子機器、及びコンピュータ記憶媒体に関する。
知能技術の発達に伴い、音声認識を行って、認識された音声に基づいて制御を行うことが、知能技術の適用における重要な内容となっている。様々なインテリジェント製品に音声認識技術を適用することにより、インテリジェント制御を実現する。インテリジェント製品の増加、及び、音声認識の正確さに対する要求がますます高くなることにつれて、様々な音声認識技術は、次々と現れて尽きない。
現在、よく使用されている音声認識方式では、ユーザが発した認識対象音声情報の特徴を抽出し、認識アルゴリズムによって、該ユーザが発した認識対象音声情報を認識する。しかしながら、複数人が話す場合(例えば、車内)に音声認識機能を使用すると、捉えられた認識対象音声情報には、複数人の話しの内容が含まれる可能性があり、そのうち一人のみの認識対象音声情報が有効であり、他人が発した雑音が存在するため、正しい意味が認識されることができない。これにより、音声認識の正確さが不足である。
本願の各実施形態により、音声認識方法、電子機器、及びコンピュータ記憶媒体が提供されている。
端末による音声認識方法であって、
採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、
各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、ことを含む。
電子機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに上記音声認識方法を実行させる。
コンピュータプログラムを記憶したコンピュータ記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、前記プロセッサに上記音声認識方法を実行させる。
本願の1つ又は複数の実施形態の詳細は、次の図面及び説明に示される。本願の他の特徴、目的、及びメリットは、明細書、図面、及び特許請求の範囲から明らかになる。
本願の実施形態又は従来技術の構成をより明確に説明するために、以下、実施形態又は従来技術の説明に必要な図面を簡単的に紹介する。明らかに、以下の説明における図面は本願の幾つかの実施形態を示しているにすぎず、当業者にとって、創造的な労力なしに、これらの図面から他の図面を得ることもできる。
一実施形態における音声認識方法の適用環境の模式図である。 一実施形態における電子機器の内部構成の模式図である。 一実施形態における音声認識方法の手順の模式図である。 別の実施形態における音声認識方法の手順の模式図である。 具体的な一実施形態における音声認識方法の手順の模式図である。 一実施形態における電子機器の構成のブロック図である。 別の実施形態における電子機器の構成のブロック図である。 別の実施形態における電子機器の記憶モジュールの構成のブロック図である。
本発明の目的、解決手段、及びメリットをさらに明確にするために、以下、図面および実施形態を参照して、本発明をさらに詳しく説明する。理解すべきものとして、ここで説明される具体的な実施形態は、本発明を解釈するためのものにすぎず、本発明を限定するものではない。
図1は、一実施形態における音声認識方法の適用環境の模式図である。図1を参照すると、該音声認識方法は、音声認識システムに適用される。該音声認識システムは、ネットワークを介して通信可能な端末10とサーバ20とを備える。端末10は、音声情報を認識して意味情報を得、意味情報をさらに処理して音声認識結果を決定してもよいし、ネットワークを介して、取得された音声情報を対応するサーバ20にアップロードしてもよい。サーバ20は、端末10からアップロードされた音声情報を認識して、ネットワークを介して認識結果を端末10に送信することができる。端末10は、受信された認識結果を意味情報とし、受信された意味情報に基づいて音声認識結果を決定する。端末10は、音声認識結果に基づいて、後続の関連動作を実行するための相応する命令を生成して、音声のインテリジェント制御を実現することができる。該端末10は、インテリジェント入出力及び音声認識を実現可能ないかなる機器であってもよく、例えば、デスクトップ端末又は移動端末である。移動端末は、スマートフォン、タブレットコンピュータ、車載コンピュータ、ウェアラブルインテリジェントデバイスなどであってもよい。該サーバ20は、音声情報を受信して音声認識を行うプラットフォームが位置するサーバであってもよい。サーバは、独立したサーバ、又は、複数のサーバからなるサーバクラスタで実現してもよい。
図2に示すように、一実施形態では、電子機器が提供されている。該電子機器は、図1の端末10であってもよい。該電子機器は、システムバスを介して接続されるプロセッサと、非揮発性記憶媒体と、内部メモリと、通信インターフェースと、を備える。ここで、該電子機器の非揮発性記憶媒体には、オペレーティングシステム、ローカル声紋データベース、及びコンピュータ可読命令が記憶される。ローカル声紋データベースには、声紋情報が記憶される。該コンピュータ可読命令は、音声認識方法の実現に使用可能である。該電子機器のプロセッサは、計算及び制御の機能を提供し、電子機器全体の作動をサポートするものである。該電子機器の内部メモリには、コンピュータ可読命令を記憶してもよい。該コンピュータ可読命令は、プロセッサによって実行されると、プロセッサに音声認識方法を実行させることが可能である。通信インターフェースは、サーバ20との通信に用いられる。当業者であれば理解できるように、図2に示された構成は、本願発明に係る一部の構成のブロック図にすぎず、本願発明が適用される電子機器を限定するものではない。具体的な電子機器は、図示よりも多く又は少ない構成要素を含んでもよく、又はいくらかの構成要素を組み合わせたものであってもよく、又は構成要素の異なる配置を有してもよい。
図3に示すように、一実施形態では、音声認識方法が提供されている。本実施形態では、該方法を上記の図1の端末10に適用することを例として説明する。該方法は、具体的に、下記のステップS310〜ステップS360を含む。
S310で、採取された認識対象音声情報を取得し、認識対象音声情報の意味情報を決定する。
本実施形態では、音声情報は、ユーザが端末の音声入力装置によって入力したオーディオ情報であってもよい。即ち、音声入力装置によって、ユーザの音声情報を採取することができる。認識対象音声情報の採取を完了すると、採取された認識対象音声情報を取得することができる。ここで、音声入力装置は、マイクを含んでもよいが、これに限定されない。認識対象音声情報とは、意味情報を得るために認識を必要とする音声情報を意味する。意味情報は、テキスト情報であってもよい。認識対象音声情報を音声認識して対応する意味情報を得ると、認識対象音声情報の意味情報を決定することができ、つまり、認識対象音声情報を入力したユーザの言い表した意味を決定することができる。
S320で、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出する。
認識対象音声情報の意味情報を決定した後、該意味情報が所定の規則を満たすか否かを判断する必要がある。本実施形態では、所定の規則は、予め設定された、意味情報に対する要求であってもよい。つまり、意味情報が所定の規則を満たさない場合、該意味情報がそれに対する要求を満たさないことが表されるため、該意味情報が正確でないと認められる。例えば、オーディオに対する認識であるので、一般的に、ユーザが言い表したい内容をオーディオによって正確に言い表す際に、対応する音声情報は、人が話すときの文法要求を満たすべきである。このため、所定の規則は、意味情報が所定の文法規則に適合することであってもよい。
一方、本実施形態の音声認識方法を実現する端末は、複数の動作モードを有してもよい。これらの動作モードは、ナビゲーションモード、音楽モード、放送モード、及び番組モードなどを含んでもよいが、これらに限定されない。異なる動作モードで動作すると、端末は、異なるユーザ要求を満たすことができる。また、各動作モードは、その対応するレキシコンを有する。レキシコンには、動作モードに対応して使用され得る語彙が含まれる。意味情報を決定した後、意味情報を分割して得られたキーワードがレキシコンにあるか否かを判断してもよい。キーワードがレキシコンにある場合、ユーザの認識対象音声情報の意味情報は、端末の動作モードで使用され得る語彙であることが表される。
これにより、本実施形態では、所定の規則は、意味情報が所定の文法規則に適合し、且つ、意味情報が単一のレキシコンにあることであってもよい。意味情報が所定の規則を満たさない場合、認識対象音声情報を認識して得られた意味情報は、端末により正確に認識されることができず、相応する動作を実行するための対応する命令に変換されることができないと認められる。一方、所定の規則は、意味情報が所定の文法規則に適合し、且つ、意味情報が単一のレキシコンにあり、且つ、意味情報に対応する命令があることであってもよい。意味情報が所定の文法規則に適合し、且つ、意味情報が単一のレキシコンにある一方、意味情報が有効な命令に変換されることができず、即ち、該意味情報に対応する命令がない場合にも、該意味情報が所定の規則を満たさないと認められる。
具体的な一適用例では、例えば、決定された意味情報は「私はこんにちは音楽を再生したい」であり、これに対応してユーザAが話したのは「私は音楽を再生したい」であるが、ユーザAが話しているうちに、ユーザBは、ユーザAの「私は」の後に「こんにちは」を入れた。「音楽を再生したい」が、音楽モードに対応するレキシコンにあるが、センテンス全体の文法が人間の正常な文法に適合しないため、該意味情報が所定の規則を満たさないと認められる。また、例えば、意味情報は「こんにちは」であり、所定の文法規則に適合する上に、レキシコンにある。しかし、該意味情報は、制御語句でなく、実質的に挨拶語である。「こんにちは」に対応する命令が端末になく、即ち、相応する動作を実行するための命令を生成することができない。同様に、該意味情報が所定の規則を満たさないと認められる。
意味情報が所定の規則を満たさないと判定した場合、該意味情報が正確でないと認められ、認識の正確さを向上させるために、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出する必要がある。各人の声紋情報が異なるため、同一の人の異なる音声情報は、同様の声紋情報に対応する。例えば、ユーザAは、異なる音声情報を話したが、これら異なる音声情報は、同一のユーザAが話したものであるため、その声紋情報が同様である。正確さを向上させるために、声紋情報の判断によって、一人の音声情報を特定してもよい。
S330で、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とする。
ローカル声紋データベースは、声紋情報を記憶することができる。ローカル声紋データベースに記憶されている声紋情報は、端末と音声のやり取りを行ったことがあるユーザの声紋情報であって、それに対応する意味情報が少なくとも1回で所定の規則を満たした声紋情報であってもよい。各音声セグメントに対応する意味情報と、ローカル声紋データベースに記憶されている、マッチングされていない声紋情報とをマッチングする際に、まず、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とする必要がある。即ち、各音声セグメントの声紋情報と、ローカル声紋データベースにおける声紋情報とのマッチングを行う際に、毎回にローカル声紋データベースにおける単一のマッチング対象声紋情報と、各音声セグメントの声紋情報とをマッチングする。このように、単一のユーザの音声情報を選別することができる。
S340で、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定する。
音声情報には、複数のユーザの音声が含まれる可能性がある。ローカル声紋データベースからマッチングされていない1つのマッチング対象声紋情報を選択した後、即ち、1つのユーザの声紋情報を選択した後、各音声セグメントの声紋情報と該マッチング対象声紋情報とをマッチングする。同一のユーザの声紋情報は同様であり、各音声セグメントの声紋情報のうち、マッチング対象声紋情報とのマッチングに成功した声紋情報は、マッチング対象声紋情報と同一のユーザの声紋情報であり、即ち、選別後声紋情報が、マッチング対象声紋情報に対応するユーザの声紋情報である。
S350で、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定する。
各選別後声紋情報が同一のユーザからのものであるため、各選別後声紋情報に対応する音声セグメントを組み合わせ、即ち、同一のユーザの音声セグメントを組み合わせてもよい。得られた組み合わせ音声情報は、即ち同一のユーザの音声であり、同一のユーザの音声データである。そして、組み合わせ音声情報の組み合わせ意味情報を決定する。組み合わせ意味情報は、即ち該ユーザの認識対象音声情報に対応する、正確に言い表した意味である。
S360で、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とする。
組み合わせ意味情報を得た後、組み合わせ意味情報は、上記ユーザの認識対象音声情報に対応する、正確に言い表した意味であるにもかかわらず、音声情報は、複数のユーザの音声である可能性があり、上記のステップによって得られた組み合わせ音声情報の組み合わせ意味情報は、所定の規則を満たさない可能性がある。正確さをさらに向上させるために、組み合わせ意味情報が所定の規則を満たすか否かを判断する必要がある。組み合わせ意味情報が所定の規則を満たす場合、該意味情報が正確であることがさらに表される。この場合、組み合わせ意味情報を音声認識結果とすることができ、音声認識の目的を達成する。その後、音声認識結果に基づいて、相応する命令を生成することができ、命令に応じて、相応する動作を実行することができる。例えば、意味情報は、「私はこんにちは音楽を再生したい」である。選択されたマッチング対象声紋情報がユーザAの声紋情報であり、音声セグメント「私は」及び「音楽を再生したい」の声紋情報がユーザAの声紋情報とのマッチングに成功し、即ち、選別後声紋情報が音声セグメント「私は」及び「音楽を再生したい」の声紋情報である場合、音声セグメント「私は」及び「音楽を再生したい」を組み合わせて、最終的な組み合わせ音声情報としてもよい。決定された組み合わせ意味情報は、「私は音楽を再生したい」であり、所定の文法要求に適合する上に、レキシコンにあり、且つ、音楽再生動作の実行を必要とする意味情報であり、対応する命令があり、即ち、該命令に応じて、音楽再生動作を実行することができる。該組み合わせ意味情報が所定の規則を満たすと認められ、「私は音楽を再生したい」を音声認識結果とする。その後、該音声認識結果に対応する音楽再生命令を生成して、音楽再生を実行することができる。
上記音声認識方法では、まず、認識対象音声情報の意味情報を決定し、意味情報が所定の規則を満たさない場合、この際に認識された意味情報が正確でない可能性があることが表される。この場合、認識対象音声情報をセグメンテーションして各音声セグメントを得、各音声セグメントの声紋情報を抽出する。ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、後続の声紋マッチングに対して根拠を提供し、即ち、声紋マッチングを行うための単一のユーザのマッチング対象声紋情報を提供する。そして、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、即ち、上記マッチング対象声紋情報とマッチングする単一のユーザの声紋情報を選別し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報を認識して、組み合わせ意味情報を得、単一のユーザが言い表した意味を得る。認識の正確さを向上させるために、組み合わせ意味情報が所定の規則を満たすか否かを判断する必要もある。組み合わせ意味情報が所定の規則を満たす場合、正確に認識された意味を得たこと、即ち、ユーザが言い表したい意味を正確に得たことが表される。この場合、組み合わせ意味情報を音声認識結果とし、音声認識の正確さを向上させる。
一実施形態では、上記音声認識方法は、組み合わせ意味情報が所定の規則を満たさない場合、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とするステップに戻るステップをさらに含む。
組み合わせ意味情報が所定の規則を満たさない場合、該組み合わせ意味情報がそれに対する要求を満たさないことが表されるため、該組み合わせ意味情報が正確でないと認められ、次のユーザの声紋情報のマッチングを行う必要がある。例えば、意味情報は、「私はこんにちは音楽を再生したい」である。選択されたマッチング対象声紋情報がユーザBの声紋情報であり、音声セグメント「こんにちは」の声紋情報とユーザBの声紋情報とのマッチングに成功し、即ち、選別後声紋情報が音声セグメント「こんにちは」の声紋情報である場合、音声セグメント「こんにちは」を最終的な組み合わせ音声情報としてもよい。決定された組み合わせ意味情報は、「こんにちは」であり、所定の文法要求に適合し、且つ、レキシコンにあるにもかかわらず、対応する命令がなく、即ち、動作を実行するための命令を生成することができない。このため、同様に、該組み合わせ意味情報が所定の規則を満たさないと認められる。このとき、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とするステップに戻り、次のマッチングされていない声紋情報を取得して、マッチング対象声紋情報とし、声紋マッチング過程を引き続き行う必要がある。
図4に示すように、一実施形態では、上記音声認識方法は、以下のステップをさらに含む。
S370で、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とする。
意味情報が所定の規則を満たす場合、該意味情報がそれに対する要求を満たすことが表されるため、該意味情報が正確であると認められ、該意味情報を音声認識結果とする。これにより、比較的正確な音声認識結果を得、音声認識の正確さを向上させることができる。
引き続いて図4を参照すると、一実施形態では、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とした後に、上記音声認識方法は、以下のステップをさらに含んでもよい。
S381で、認識対象音声情報の声紋情報を抽出する。
S382で、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合する。
S383で、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶する。
意味情報が所定の規則を満たす場合、該意味情報が比較的正確であると認められ、該意味情報を音声認識結果とした後に、認識対象音声情報の声紋情報を抽出して、該声紋情報をローカル声紋データベースに記憶してもよい。具体的には、記憶する前に、該声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合する必要もある。つまり、ローカル声紋データベースに記憶されている各声紋情報には、抽出された声紋情報とマッチングする声紋情報が存在するか否かを照合する。ローカル声紋データベースに記憶されている各声紋情報には、抽出された声紋情報とマッチングする声紋情報が存在しない場合、即ち、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、該抽出された声紋情報に対応するユーザが、端末と音声のやり取りを初めて行ったユーザであり、且つ、対応する意味情報が所定の規則を満たすことが表されるので、抽出された声紋情報をローカル声紋データベースに記憶する。
一実施形態では、声紋情報をローカル声紋データベースに記憶する方式は、抽出された声紋情報のユーザ識別子を作成し、抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する、ことを含む。
ここで、ユーザ識別子は、ユーザの身分を一意に特定することができる識別子であり、数字、字母、及び文章記号の少なくとも1種の文字の文字列を含んでもよい。ユーザ識別子は声紋情報に対応付けられ、つまり、声紋情報と話し手との対応付けが実現される。抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報に対応するユーザが、音声のやり取りを初めて行ったユーザであり、且つ、意味情報が所定の要求を満たすことが表され、抽出された声紋情報のユーザ識別子を作成し、抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する。例えば、初期レベルが1であることは、そのレベルが最も低いレベルであることを表す。優先レベルが高ければ高いほど、該ユーザによる音声のやり取りの回数が多くなり、その対応する声紋情報が重要になることが表される。
一実施形態では、上記音声認識方法は、抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させるステップをさらに含んでもよい。
抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、該抽出された声紋情報が以前に記憶されたことが分かり、抽出された声紋情報に対応するユーザが、音声のやり取りを初めて行ったのではなく、以前に端末と音声のやり取りを行ったことがあり、且つ、対応する意味情報が所定の規則を満たすことが表される。この場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させることにより、該ユーザの声紋情報の重要度を高める。具体的には、所定のレベルは、1であってもよい。例えば、抽出された声紋情報に対応するユーザ識別子の優先レベルは、もと1であり、所定のレベルである1増加すると、2となる。
一実施形態では、ローカル声紋データベースにおいて、ユーザ識別子が作成されてもよい。ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応付けられる。
これにより、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とする方式は、ユーザ識別子の優先レベルの所定のレベル順に基づいて、ローカル声紋データベースからマッチングされていない1つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを含んでもよい。
このように、ローカル声紋データベースからマッチングされていない1つのユーザ識別子に対応する声紋情報を、乱雑に選択するのではなく、秩序立って取得してマッチング対象声紋情報とし、間違いを効果的に防止することができる。
一実施形態では、所定のレベル順は、優先レベルの高い順、又は、優先レベルの低い順を含んでもよい。
ユーザ識別子の優先レベルが高ければ高いほど、対応する声紋情報が重要になり、つまり、よく音声によって制御を行うユーザである。例えば、車内では、端末が車載コンピュータであり、一般的に車の持ち主による音声制御が最も頻繁である。優先レベルが高ければ高いほど、その重要度が高くなり、認識対象音声情報に対応するユーザが車の持ち主である可能性が大きくなる。このため、優先レベルの高い順にマッチング対象声紋情報を選択することにより、秩序立って声紋マッチングを行い、間違いを防止することができるだけでなく、全体的な認識効率を向上させることができる。また、所定のレベル順は、優先レベルの低い順を採用する場合、マッチング対象声紋情報を秩序立って選択し、声紋マッチングを効果的に行い、間違いを防止することができる。
一実施形態では、上記音声認識方法は、組み合わせ意味情報が所定の規則を満たさなく、且つ、ローカル声紋データベースにマッチングされていない声紋情報が存在しない場合、認識エラーのプロンプトメッセージを提供するステップをさらに含んでもよい。
組み合わせ意味情報が所定の規則を満たさない場合、組み合わせ意味情報が正確でないことが表される。正確に認識するために、次のマッチングされていない声紋情報の選択を行う必要がある。しかし、ローカル声紋データベースにマッチングされていない声紋情報が存在しないことから、ローカル声紋データベースにおける声紋情報のいずれもマッチングされたことが分かり、声紋情報のマッチングが終了する。このとき、認識エラーのプロンプトメッセージを提供することにより、今回の音声認識が失効することをユーザに注意し、ユーザが迅速に次の音声制御過程に進むようにする。
一実施形態では、上記音声認識方法は、認識対象音声情報の意味情報を決定した後であって、認識対象音声情報をセグメンテーション処理する前に、意味情報のキーワードを抽出するステップをさらに含む。
意味情報が所定の文法規則に適合しなく、又は、意味情報のキーワードが同時に1つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに意味情報のキーワードに対応する命令が存在しない場合、意味情報が所定の規則を満たさないと判定する。
各動作モードにレキシコンが対応付けられ、即ち、動作モードは、レキシコンに対応付けられる。意味情報が所定の規則を満たすか否かを判断する際に、まず、該意味情報が所定の文法規則に適合するか否かを判断し、該意味情報が所定の文法規則に適合する場合、意味情報のキーワードが同時に1つのレキシコンにあるか否かを調べる。これは、複数の動作モードで複数のレキシコンがあり、キーワードが各レキシコンに分布し得、1回の音声によって、1つの動作モードで動作モードに対応する関連動作を実行することしかできないため、キーワードが各レキシコンに分布している場合、該意味情報のキーワードが所定の規則を満たさないことが分かるからである。また、ローカル命令ライブラリは、関連動作の実行を制御する命令を記憶するためのものである。具体的には、意味情報のキーワードと命令とが関連付けられて記憶され、意味情報のキーワードによって、対応する命令を見つけることができ、その後、命令に応じて、相応する動作を実行する。意味情報が所定の文法規則に適合し、且つ、対応するキーワードがすべて1つのレキシコンにある一方、ローカル命令ライブラリに該意味情報に対応する命令が存在しない場合、該音声情報が無効であり、対応する命令を得ることができなく、即ち、音声制御を実現できないことが分かる。例えば、意味情報は、「こんにちは」であり、所定の文法規則に適合し、且つ、1つのレキシコンに存在する一方、制御語句でなく、単なる挨拶語であり、ローカル命令ライブラリには、「こんにちは」に対応する、相応する動作を実行可能な命令が存在しない。
本実施形態では、上記音声認識方法は、組み合わせ音声情報の組み合わせ意味情報を決定した後であって、組み合わせ意味情報を音声認識結果とする前に、組み合わせ意味情報のキーワードを抽出するステップをさらに含む。
組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に1つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと判定する。
組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に1つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと認められる。この場合、該組み合わせ意味情報を音声認識結果とすると、ローカル命令ライブラリから組み合わせ意味情報のキーワードに対応する命令を見つけることができるので、その後、該命令に応じて、関連動作を実行することができる。例えば、組み合わせ意味情報は、「私は音楽を再生したい」であり、所定の文法規則に適合し、そのキーワードが「再生」及び「音楽」であり、これらのキーワードが同時に音楽モードに対応するレキシコンに存在し、且つ、ローカル命令ライブラリに「再生」に対応する命令が存在する場合、「私は音楽を再生したい」が所定の規則を満たすと認められ、ローカル命令ライブラリから対応する再生命令を見つけて音楽を再生することができる。
一実施形態では、認識対象音声情報の意味情報を決定する方式は、
認識対象音声情報を音声認識して、意味情報を得る、ことを含んでもよい。認識対象音声情報を認識する際に、端末のローカルで認識を行い、即ち、認識対象音声情報を音声認識して、意味情報を得るようにしてもよい。このように、意味情報の決定効率を向上させ、音声認識全体の効率を向上させることができる。
一実施形態では、認識対象音声情報の意味情報を決定する方式は、
認識対象音声情報をクラウドサーバに送信し、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする、ことを含んでもよい。
これにより、クラウドサーバで認識を行い、即ち、認識対象音声情報をクラウドサーバに送信し、クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とするようにしてもよい。クラウドサーバには、認識の根拠となるデータを大量に記憶することができるので、認識の正確さを向上させることができる。
以下、具体的な一実施形態で上記音声認識方法を具体的に説明する。図5は、具体的な一実施形態の音声認識方法のフローチャートである。
まず、採取された認識対象音声情報を取得し、認識対象音声情報を認識して意味情報を得、又は、認識対象音声情報をクラウドサーバに送信し、クラウドサーバによる音声認識の認識結果を受信し、認識結果を意味情報とする。そして、意味情報が所定の規則を満たすか否かを判断し、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出し、ローカル声紋データベースにマッチングされていない声紋情報が存在するか否かを検索し、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定し、組み合わせ意味情報が所定の規則を満たすか否かを判断し、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とする。その後、認識対象音声情報の声紋情報を抽出し、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合し、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶するようにしてもよい。また、抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる。
また、組み合わせ意味情報が所定の規則を満たさない場合、ローカル声紋データベースにマッチングされていない声紋情報が存在するか否かを検索するステップに戻り、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とする。ローカル声紋データベースにマッチングされていない声紋情報が存在しない場合、認識エラーのプロンプトメッセージを提供する。意味情報が所定の規則を満たす場合、意味情報を音声認識結果とする。
図6に示すように、一実施形態では、本願は電子機器600も提供している。電子機器600の内部構成は、図2に示す構成に対応してもよい。下記の各モジュールは、全部又は一部が、ソフトウェア、ハードウェア、又はこれらの組み合わせによって実現されてもよい。電子機器600は、意味情報決定モジュール601と、セグメンテーション声紋取得モジュール602と、マッチング対象声紋情報取得モジュール603と、マッチング選別モジュール604と、組み合わせモジュール605と、認識結果決定モジュール606と、を備える。
意味情報決定モジュール601は、採取された認識対象音声情報を取得し、認識対象音声情報の意味情報を決定する。
セグメンテーション声紋取得モジュール602は、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出する。
マッチング対象声紋情報取得モジュール603は、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とする。
マッチング選別モジュール604は、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定する。
組み合わせモジュール605は、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定する。
認識結果決定モジュール606は、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とする。
上記電子機器では、まず、認識対象音声情報の意味情報を決定し、意味情報が所定の規則を満たさない場合、この際に認識された意味情報が正確でない可能性があることが表される。この場合、認識対象音声情報をセグメンテーションして各音声セグメントを得、各音声セグメントの声紋情報を抽出する。ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、後続の声紋マッチングに対して根拠を提供し、即ち、声紋マッチングを行うための単一のユーザのマッチング対象声紋情報を提供する。そして、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、つまり、各音声セグメントの声紋情報の中から、上記マッチング対象声紋情報とマッチングする単一のユーザの声紋情報を選別し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、即ち、単一のユーザの組み合わせ音声情報を得、組み合わせ音声情報を認識して、組み合わせ意味情報を得、単一のユーザが言い表した意味を得る。認識の正確さを向上させるために、組み合わせ意味情報が所定の規則を満たすか否かを判断する必要もある。組み合わせ意味情報が所定の規則を満たす場合、正確に認識された意味を得たこと、即ち、ユーザが言い表したい意味を正確に得たことが表される。この場合、組み合わせ意味情報を音声認識結果とし、音声認識の正確さを向上させる。
一実施形態では、上記認識結果決定モジュール606は、さらに、組み合わせ意味情報が所定の規則を満たさない場合、マッチング対象声紋情報取得モジュール603が、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る。
一実施形態では、上記認識結果決定モジュール606は、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とする。
図7に示すように、一実施形態では、上記電子機器600は、
認識結果決定モジュール606が、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とした後に、認識対象音声情報の声紋情報を抽出する音声声紋抽出モジュール607と、
抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合する声紋照合モジュール608と、
抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶する記憶モジュール609と、をさらに備える。
図8を参照すると、一実施形態では、記憶モジュール609は、
抽出された声紋情報のユーザ識別子を作成する識別子作成モジュール6091と、
抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する初期化モジュール6092と、を含む。
一実施形態では、上記電子機器は、レベル増加モジュールをさらに備える。
レベル増加モジュールは、抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる。
一実施形態では、ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応づけられる。
上記マッチング対象声紋情報取得モジュール603は、ユーザ識別子の優先レベルの所定のレベル順に基づいて、ローカル声紋データベースからマッチングされていない1つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする。
一実施形態では、所定のレベル順は、優先レベルの高い順、又は、優先レベルの低い順を含む。
一実施形態では、上記電子機器は、プロンプトモジュールをさらに備える。
プロンプトモジュールは、組み合わせ意味情報が所定の規則を満たさなく、且つ、ローカル声紋データベースにマッチングされていない声紋情報が存在しない場合、認識エラーのプロンプトメッセージを提供する。
一実施形態では、上記電子機器は、情報キーワード抽出モジュールをさらに備える。
情報キーワード抽出モジュールは、意味情報のキーワードを抽出し、組み合わせ意味情報のキーワードを抽出する。
上記セグメンテーション声紋取得モジュール602は、意味情報が所定の文法規則に適合しなく、又は、意味情報のキーワードが同時に1つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに意味情報のキーワードに対応する命令が存在しない場合、意味情報が所定の規則を満たさないと判定する。
上記認識結果決定モジュール606は、組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に1つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと判定する。
一実施形態では、上記意味情報決定モジュール601は、
認識対象音声情報を音声認識して、意味情報を得る認識モジュールを含み、
或いは、
認識対象音声情報をクラウドサーバに送信する情報送信モジュールと、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする意味情報取得モジュールと、を含む。
一実施形態では、電子機器であって、メモリとプロセッサとを備え、メモリにコンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサによって実行されると、プロセッサに、採取された認識対象音声情報を取得し、認識対象音声情報の意味情報を決定し、意味情報が所定の規則を満たさない場合、認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各音声セグメントの声紋情報を抽出し、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、組み合わせ音声情報の組み合わせ意味情報を決定し、組み合わせ意味情報が所定の規則を満たす場合、組み合わせ意味情報を音声認識結果とする、ことを実行させる。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、組み合わせ意味情報が所定の規則を満たさない場合、ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る、ことを実行させる。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とする、ことを実行させる。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、意味情報が所定の規則を満たす場合、意味情報を音声認識結果とした後に、認識対象音声情報の声紋情報を抽出し、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報とを照合し、抽出された声紋情報と、ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された声紋情報をローカル声紋データベースに記憶する、ことを実行させる。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、以下のステップを実行させる。声紋情報をローカル声紋データベースに記憶する方式は、抽出された声紋情報のユーザ識別子を作成し、抽出された声紋情報と、対応するユーザ識別子とを関連付けてローカル声紋データベースに記憶し、ユーザ識別子の優先レベルを初期レベルに初期化する、ことを含む。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、抽出された声紋情報と、ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる、ことを実行させる。
一実施形態では、ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応づけられる。
コンピュータ可読命令は、さらに、プロセッサに、以下のステップを実行させる。ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とする方式は、ユーザ識別子の優先レベルの所定のレベル順に基づいて、ローカル声紋データベースからマッチングされていない1つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを含む。
一実施形態では、所定のレベル順は、優先レベルの高い順、又は、優先レベルの低い順を含んでもよい。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、組み合わせ意味情報が所定の規則を満たさなく、且つ、ローカル声紋データベースにマッチングされていない声紋情報が存在しない場合、認識エラーのプロンプトメッセージを提供する、ことを実行させる。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、認識対象音声情報の意味情報を決定した後であって、認識対象音声情報をセグメンテーション処理する前に、意味情報のキーワードを抽出し、
意味情報が所定の文法規則に適合しなく、又は、意味情報のキーワードが同時に1つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに意味情報のキーワードに対応する命令が存在しない場合、意味情報が所定の規則を満たさないと判定する、ことを実行させる。
本実施形態では、コンピュータ可読命令は、さらに、プロセッサに、組み合わせ音声情報の組み合わせ意味情報を決定した後であって、組み合わせ意味情報を音声認識結果とする前に、組み合わせ意味情報のキーワードを抽出し、
組み合わせ意味情報が所定の文法規則に適合し、且つ、組み合わせ意味情報のキーワードが同時に1つのレキシコンに存在し、且つ、ローカル命令ライブラリに組み合わせ意味情報のキーワードに対応する命令が存在する場合、組み合わせ意味情報が所定の規則を満たすと判定する、ことを実行させる。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、以下のステップを実行させる。認識対象音声情報の意味情報を決定する方式は、認識対象音声情報を音声認識して、意味情報を得る、ことを含んでもよい。
一実施形態では、コンピュータ可読命令は、さらに、プロセッサに、以下のステップを実行させる。認識対象音声情報の意味情報を決定する方式は、
認識対象音声情報をクラウドサーバに送信し、
クラウドサーバによる認識対象音声情報への音声認識の認識結果を受信し、認識結果を意味情報とする、ことを含んでもよい。
上記電子機器では、まず、認識対象音声情報の意味情報を決定し、意味情報が所定の規則を満たさない場合、この際に認識された意味情報が正確でない可能性があることが表される。この場合、認識対象音声情報をセグメンテーションして各音声セグメントを得、各音声セグメントの声紋情報を抽出する。ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、後続の声紋マッチングに対して根拠を提供し、即ち、声紋マッチングを行うための単一のユーザのマッチング対象声紋情報を提供する。そして、各音声セグメントの声紋情報とマッチング対象声紋情報とをマッチングし、各音声セグメントの声紋情報の中から、マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、つまり、各音声セグメントの声紋情報の中から、上記マッチング対象声紋情報とマッチングする単一のユーザの声紋情報を選別し、各選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、即ち、単一のユーザの組み合わせ音声情報を得、組み合わせ音声情報を認識して、組み合わせ意味情報を得、単一のユーザが言い表した意味を得る。認識の正確さを向上させるために、組み合わせ意味情報が所定の規則を満たすか否かを判断する必要もある。組み合わせ意味情報が所定の規則を満たす場合、正確に認識された意味を得たこと、即ち、ユーザが言い表したい意味を正確に得たことが表される。この場合、組み合わせ意味情報を音声認識結果とし、音声認識の正確さを向上させる。
当業者であれば理解できるように、上記の実施形態に係る方法の手順の全部又は一部は、コンピュータプログラムから関連のハードウェアへ指示することにより実行されてもよい。コンピュータプログラムは、非揮発性コンピュータ可読記憶媒体に記憶されてもよい。上記のような各方法の実施形態を含む手順を実現させるために、該コンピュータプログラムは、本発明の実施形態のように、コンピュータシステムの記憶媒体に記憶され、該コンピュータシステムの少なくとも1つのプロセッサによって実行されることが可能である。ここで、コンピュータ記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ(ROM:Read−Only Memory)やランダムアクセスメモリ(RAM:Random Access Memory)などであってもよい。
上述した実施形態の各構成要件は、任意に組み合わせされてもよい。説明を簡潔にするために、上記実施形態の各構成要件の可能な組み合わせがすべて説明されているわけではない。しかしながら、これらの構成要件の組み合わせは、矛盾がない限り、本明細書に記載された範囲にあると考えられるべきである。
上述した実施形態は、本発明の幾つかの実施形態を示したものにすぎず、説明が具体的で詳しいが、これによって発明の特許範囲への限定と理解されてはならない。留意すべきこととして、当業者にとっては、本発明の構想を逸脱しない前提で、若干の変形及び改良が可能である。これらの変形及び改良は、いずれも本発明の保護範囲に属する。それゆえ、本発明の特許保護範囲は、添付の特許請求の範囲に従うべきである。
10 端末
20 サーバ
600 電子機器
601 意味情報決定モジュール
602 セグメンテーション声紋取得モジュール
603 マッチング対象声紋情報取得モジュール
604 マッチング選別モジュール
605 組み合わせモジュール
606 認識結果決定モジュール
607 音声声紋抽出モジュール
608 声紋照合モジュール
609 記憶モジュール
6091 識別子作成モジュール
6092 初期化モジュール

Claims (10)

  1. 端末による音声認識方法であって、
    採取された認識対象音声情報を取得し、前記認識対象音声情報の意味情報を決定し、
    前記意味情報が所定の規則を満たさない場合、前記認識対象音声情報をセグメンテーション処理して各音声セグメントを得、各前記音声セグメントの声紋情報を抽出し、
    ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とし、
    各前記音声セグメントの声紋情報と前記マッチング対象声紋情報とをマッチングし、各前記音声セグメントの声紋情報の中から、前記マッチング対象声紋情報とのマッチングに成功した選別後声紋情報を決定し、
    各前記選別後声紋情報に対応する音声セグメントを組み合わせて、組み合わせ音声情報を得、前記組み合わせ音声情報の組み合わせ意味情報を決定し、
    前記組み合わせ意味情報が前記所定の規則を満たす場合、前記組み合わせ意味情報を音声認識結果とする、
    ことを含むことを特徴とする音声認識方法。
  2. 前記組み合わせ意味情報が前記所定の規則を満たさない場合、
    ローカル声紋データベースにマッチングされていない声紋情報が存在する場合、前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とすることに戻る、
    ことをさらに含むことを特徴とする請求項1に記載の音声認識方法。
  3. 前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とする、
    ことをさらに含むことを特徴とする請求項1に記載の音声認識方法。
  4. 前記意味情報が前記所定の規則を満たす場合、前記意味情報を音声認識結果とした後に、
    前記認識対象音声情報の声紋情報を抽出し、
    抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報とを照合し、
    抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている各声紋情報のいずれとのマッチングにも失敗した場合、抽出された前記声紋情報を前記ローカル声紋データベースに記憶する、
    ことをさらに含むことを特徴とする請求項3に記載の音声認識方法。
  5. 前記声紋情報を前記ローカル声紋データベースに記憶することは、
    抽出された前記声紋情報のユーザ識別子を作成し、
    抽出された前記声紋情報と、対応する前記ユーザ識別子とを関連付けて前記ローカル声紋データベースに記憶し、前記ユーザ識別子の優先レベルを初期レベルに初期化する、
    ことを含むことを特徴とする請求項4に記載の音声認識方法。
  6. 抽出された前記声紋情報と、前記ローカル声紋データベースに記憶されている声紋情報とのマッチングに成功した場合、抽出された前記声紋情報に対応するユーザ識別子の優先レベルを所定のレベルだけ増加させる、
    ことをさらに含むことを特徴とする請求項5に記載の音声認識方法。
  7. 前記ローカル声紋データベースに記憶されている声紋情報は、ユーザ識別子に対応付けられ、
    前記ローカル声紋データベースからマッチングされていない1つの声紋情報を取得して、マッチング対象声紋情報とすることは、
    前記ユーザ識別子の優先レベルの所定のレベル順に基づいて、前記ローカル声紋データベースからマッチングされていない1つのユーザ識別子に対応する声紋情報を取得して、マッチング対象声紋情報とする、ことを含む、
    ことを特徴とする請求項1に記載の音声認識方法。
  8. 前記音声認識方法は、前記認識対象音声情報の意味情報を決定した後であって、前記認識対象音声情報をセグメンテーション処理する前に、前記意味情報のキーワードを抽出する、ことをさらに含み、
    前記意味情報が所定の文法規則に適合しなく、又は、前記意味情報のキーワードが同時に1つのレキシコンに存在するのではなく、又は、ローカル命令ライブラリに前記意味情報のキーワードに対応する命令が存在しない場合、前記意味情報が前記所定の規則を満たさないと判定し、
    前記音声認識方法は、前記組み合わせ音声情報の組み合わせ意味情報を決定した後であって、前記組み合わせ意味情報を音声認識結果とする前に、前記組み合わせ意味情報のキーワードを抽出する、ことをさらに含み、
    前記組み合わせ意味情報が前記所定の文法規則に適合し、且つ、前記組み合わせ意味情報のキーワードが同時に1つのレキシコンに存在し、且つ、前記ローカル命令ライブラリに前記組み合わせ意味情報のキーワードに対応する命令が存在する場合、前記組み合わせ意味情報が前記所定の規則を満たすと判定する、
    ことを特徴とする請求項1に記載の音声認識方法。
  9. 電子機器であって、メモリとプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、前記プロセッサに、請求項1から8のいずれか一項に記載の音声認識方法を実行させる、電子機器。
  10. コンピュータプログラムを記憶したコンピュータ記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行されると、前記プロセッサに、請求項1から8のいずれか一項に記載の音声認識方法を実行させる、コンピュータ記憶媒体。
JP2019539928A 2017-02-15 2017-11-27 音声認識方法、電子機器、及びコンピュータ記憶媒体 Active JP6771805B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710082111.5A CN108447471B (zh) 2017-02-15 2017-02-15 语音识别方法及语音识别装置
CN201710082111.5 2017-02-15
PCT/CN2017/113154 WO2018149209A1 (zh) 2017-02-15 2017-11-27 语音识别方法、电子设备以及计算机存储介质

Publications (2)

Publication Number Publication Date
JP2020505643A JP2020505643A (ja) 2020-02-20
JP6771805B2 true JP6771805B2 (ja) 2020-10-21

Family

ID=63169147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019539928A Active JP6771805B2 (ja) 2017-02-15 2017-11-27 音声認識方法、電子機器、及びコンピュータ記憶媒体

Country Status (6)

Country Link
US (2) US11043211B2 (ja)
EP (1) EP3584786B1 (ja)
JP (1) JP6771805B2 (ja)
KR (1) KR102222317B1 (ja)
CN (1) CN108447471B (ja)
WO (1) WO2018149209A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447471B (zh) 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
CN110770820A (zh) * 2018-08-30 2020-02-07 深圳市大疆创新科技有限公司 语音识别方法、装置、拍摄系统和计算机可读存储介质
CN110970020A (zh) * 2018-09-29 2020-04-07 成都启英泰伦科技有限公司 一种利用声纹提取有效语音信号的方法
CN109841216B (zh) * 2018-12-26 2020-12-15 珠海格力电器股份有限公司 语音数据的处理方法、装置和智能终端
CN111756603B (zh) * 2019-03-26 2023-05-26 北京京东尚科信息技术有限公司 智能家居系统的控制方法、装置、电子设备和可读介质
CN110163630B (zh) * 2019-04-15 2024-04-05 中国平安人寿保险股份有限公司 产品监管方法、装置、计算机设备及存储介质
CN112218412A (zh) * 2019-07-10 2021-01-12 上汽通用汽车有限公司 基于语音识别的车内氛围灯控制系统和控制方法
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN110853666B (zh) * 2019-12-17 2022-10-04 科大讯飞股份有限公司 一种说话人分离方法、装置、设备及存储介质
CN110970027B (zh) * 2019-12-25 2023-07-25 博泰车联网科技(上海)股份有限公司 一种语音识别方法、装置、计算机存储介质及系统
CN112102840A (zh) * 2020-09-09 2020-12-18 中移(杭州)信息技术有限公司 语义识别方法、装置、终端及存储介质
CN112164402B (zh) * 2020-09-18 2022-07-12 广州小鹏汽车科技有限公司 车辆语音交互方法、装置、服务器和计算机可读存储介质
CN112599136A (zh) * 2020-12-15 2021-04-02 江苏惠通集团有限责任公司 基于声纹识别的语音识别方法及装置、存储介质、终端
CN112908299B (zh) * 2020-12-29 2023-08-29 平安银行股份有限公司 客户需求信息识别方法、装置、电子设备及存储介质
CN112784734A (zh) * 2021-01-21 2021-05-11 北京百度网讯科技有限公司 一种视频识别方法、装置、电子设备和存储介质
CN113643700B (zh) * 2021-07-27 2024-02-27 广州市威士丹利智能科技有限公司 一种智能语音开关的控制方法及系统

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP3662780B2 (ja) * 1999-07-16 2005-06-22 日本電気株式会社 自然言語を用いた対話システム
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
JP2004094158A (ja) * 2002-09-04 2004-03-25 Ntt Comware Corp 母音検索を利用した声紋認証装置
GB2407657B (en) * 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
JP4346571B2 (ja) * 2005-03-16 2009-10-21 富士通株式会社 音声認識システム、音声認識方法、及びコンピュータプログラム
US20150381801A1 (en) * 2005-04-21 2015-12-31 Verint Americas Inc. Systems, methods, and media for disambiguating call data to determine fraud
JP2009086132A (ja) * 2007-09-28 2009-04-23 Pioneer Electronic Corp 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体
US8364486B2 (en) * 2008-03-12 2013-01-29 Intelligent Mechatronic Systems Inc. Speech understanding method and system
US8537978B2 (en) * 2008-10-06 2013-09-17 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
US8315866B2 (en) * 2009-05-28 2012-11-20 International Business Machines Corporation Generating representations of group interactions
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
GB2489489B (en) * 2011-03-30 2013-08-21 Toshiba Res Europ Ltd A speech processing system and method
JP2013005195A (ja) * 2011-06-16 2013-01-07 Konica Minolta Holdings Inc 情報処理システム
JP5677901B2 (ja) * 2011-06-29 2015-02-25 みずほ情報総研株式会社 議事録作成システム及び議事録作成方法
JP6023434B2 (ja) * 2012-02-09 2016-11-09 岑生 藤岡 通信装置及び認証方法
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9098467B1 (en) * 2012-12-19 2015-08-04 Rawles Llc Accepting voice commands based on user identity
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
KR20150093482A (ko) * 2014-02-07 2015-08-18 한국전자통신연구원 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치
CN103888606A (zh) * 2014-03-11 2014-06-25 上海乐今通信技术有限公司 移动终端及其解锁方法
CN104217152A (zh) * 2014-09-23 2014-12-17 陈包容 一种移动终端在待机状态下进入应用程序的实现方法和装置
KR102097710B1 (ko) * 2014-11-20 2020-05-27 에스케이텔레콤 주식회사 대화 분리 장치 및 이에서의 대화 분리 방법
EP3279790B1 (en) * 2015-03-31 2020-11-11 Sony Corporation Information processing device, control method, and program
CN106297775B (zh) * 2015-06-02 2019-11-19 富泰华工业(深圳)有限公司 语音识别装置及方法
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
CN113206737A (zh) * 2015-09-01 2021-08-03 北京三星通信技术研究有限公司 语音通信加密方法、解密方法及其装置
US10269372B1 (en) * 2015-09-24 2019-04-23 United Services Automobile Association (Usaa) System for sound analysis and recognition
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
CN105931644B (zh) * 2016-04-15 2019-10-25 Oppo广东移动通信有限公司 一种语音识别方法及移动终端
CN106098068B (zh) * 2016-06-12 2019-07-16 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN108447471B (zh) 2017-02-15 2021-09-10 腾讯科技(深圳)有限公司 语音识别方法及语音识别装置
US10147438B2 (en) * 2017-03-02 2018-12-04 International Business Machines Corporation Role modeling in call centers and work centers
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
US10403288B2 (en) * 2017-10-17 2019-09-03 Google Llc Speaker diarization
US10636427B2 (en) * 2018-06-22 2020-04-28 Microsoft Technology Licensing, Llc Use of voice recognition to generate a transcript of conversation(s)

Also Published As

Publication number Publication date
CN108447471A (zh) 2018-08-24
JP2020505643A (ja) 2020-02-20
WO2018149209A1 (zh) 2018-08-23
US20210249000A1 (en) 2021-08-12
US11562736B2 (en) 2023-01-24
KR102222317B1 (ko) 2021-03-03
CN108447471B (zh) 2021-09-10
KR20190082900A (ko) 2019-07-10
EP3584786A1 (en) 2019-12-25
EP3584786B1 (en) 2021-02-24
EP3584786A4 (en) 2019-12-25
US20190295534A1 (en) 2019-09-26
US11043211B2 (en) 2021-06-22

Similar Documents

Publication Publication Date Title
JP6771805B2 (ja) 音声認識方法、電子機器、及びコンピュータ記憶媒体
CN107492379B (zh) 一种声纹创建与注册方法及装置
US9767805B2 (en) Voice recognition method, voice controlling method, information processing method, and electronic apparatus
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
CN108305643B (zh) 情感信息的确定方法和装置
CN108984529A (zh) 实时庭审语音识别自动纠错方法、存储介质及计算装置
US9734828B2 (en) Method and apparatus for detecting user ID changes
WO2014117645A1 (zh) 信息的识别方法和装置
US20170011735A1 (en) Speech recognition system and method
WO2014183373A1 (en) Systems and methods for voice identification
US20200279565A1 (en) Caching Scheme For Voice Recognition Engines
WO2019048063A1 (en) VOICE COMMAND MANAGEMENT OF USER PROFILES
TWI536183B (zh) 語言歧義消除系統及方法
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN113051384A (zh) 基于对话的用户画像抽取方法及相关装置
JP6085149B2 (ja) 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
WO2022143349A1 (zh) 一种确定用户意图的方法及装置
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
US11361761B2 (en) Pattern-based statement attribution
CN112786041B (zh) 语音处理方法及相关设备
CN114528851A (zh) 回复语句确定方法、装置、电子设备和存储介质
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
CN112820323B (zh) 基于客户语音进行响应队列优先级调整方法及系统
US11804225B1 (en) Dialog management system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190723

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200924

R150 Certificate of patent or registration of utility model

Ref document number: 6771805

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250