本発明は、音声認識方法に関し、特に多言語音声認識方法に関する。
音声認識技術の目標は、人間の音声コンテンツを対応するセンテンスに変換することである。音声認識技術は、音声ダイヤル、音声ナビゲーション、屋内装置制御、書き取りデータの録音などを含む幅広いアプリケーションを含む。グローバリゼーションの発展に伴い、異なる国籍の人々の間の交流がますます頻繁になってきており、対話においてしばしば混合した表現がある。そのため、多言語音声認識装置の需要が増えている。多言語認識の課題に加えて、ユーザーの不正確な発音は、ユーザーの意味に適合しない、装置によって得られる変換結果をもたらす。
本開示の1つ以上の実施形態によれば、多言語音声認識およびテーマ−素意義解析方法は、音声認識部により実行される、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、前記アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定し、前記多言語の語彙および原語に従ってセンテンスを形成するステップを含み、意味解析部により実行される、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順または前記センテンスを出力する手順を選択的に実行し、前記修正手順が成功したとき、前記修正されたセンテンスを出力し、前記修正手順が失敗したとき、前記解析状態決定手順を実行して、判定された結果を選択的に出力する前記解析状態決定手順を実行するステップを含む。
本開示の1つ以上の実施形態によれば、多言語音声認識およびテーマ−素意義解析装置は、音声入力インターフェースと、出力インターフェースと、プロセッサとを含む。音声入力インターフェースは、音声入力信号を受信するように構成される。出力インターフェースは、センテンス、修正されたセンテンス、または判定された結果を出力するように構成される。前記プロセッサは、前記音声入力インターフェースと前記出力インターフェースに接続され、互いに接続された音声認識部および意味解析部を含む。音声認識部は、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、多言語の語彙に従って前記アルファベット文字列が複数の原語に対応すると決定し、前記多言語の語彙と前記原語に従って、センテンスを形成するように構成される。意味解析部は、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスを出力する手順を選択的に実行し、前記修正手順が成功した場合に修正されたセンテンスを出力し、修正手順が失敗した場合に決定結果を選択的に出力するために前記解析状態決定手順を実行するように構成される。
本開示は、説明のためにのみ与えられ、したがって本開示を限定するものではない。以下に与えられる詳細な説明及び添付の図面によってより理解されるであろう。
本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析装置の機能ブロック図である。
本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法のフローチャートである。
本発明の一実施形態に係る発音アルファベット表の概略図である。
本発明の一実施形態に係る多言語の語彙の概略図である。
本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分フローチャートである。
本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分フローチャートである。
本発明の一実施形態に係るテーマ語彙−意味関係データセットの概略図である。
本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分フローチャートである。
本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の修正手順のフローチャートである。
以下の詳細な説明では、説明を目的として、開示された実施形態の完全な理解を提供するため、多くの具体的な詳細が説明される。しかしながら、これらの特定の詳細無しに1つ以上の実施形態が実施されうることは明らかであろう。他の例では、図面を単純化するために、よく知られている構造と装置が概略的に示される。
図1を参照のこと。図1は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析装置1の機能ブロック図である。多言語音声認識およびテーマ−素意義解析装置1は、音声入力インターフェース11、出力インターフェース13、およびプロセッサ15を備える。音声入力インターフェース11は、例えば、音声入力信号を受信するためのマイクロホンなどの音声受信機である。音声入力信号は、たとえば、ユーザーによって発せられる音波波形によって形成される。出力インターフェース13は、音声入力信号に対応するセンテンスを出力するように構成されている。センテンスはプロセッサ15によって生成されるが、生成方法については後述する。例えば、出力インターフェース13はディスプレイであり、ディスプレイ画面上にセンテンスを表示する。別の例として、出力インターフェース13は有線または無線接続インターフェースであり、装置の内部メモリまたはセンテンスを記憶できるリモートメモリに接続できる。または、出力インターフェース13は、コントローラと接続することができ、コントローラは、音声制御のアプリケーションである1つ以上の被制御装置を制御するための制御命令を生成することができる。
プロセッサ15は、例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなどである。プロセッサは、音声入力インターフェース11および出力インターフェース13に接続され、音声入力信号に対応するセンテンスを生成するために音声入力インターフェース11によって受信した音声入力信号に対して、音声認識および意味解析を実行することができる。図1に示されるように、プロセッサ15は、音声認識部151および音声認識および意味解析をそれぞれ実行する意味解析部153を備えることができる。一実施形態では、音声認識部151および意味解析部153は、ハードウェアコンポーネント(例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなど)である。別の実施形態では、音声認識部151および意味解析部153は、単一のハードウェア(例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなど)によって実行される2つのファームウェアまたは2つのソフトウェアである。
上述したように、音声認識部151は、音声認識を実行するように構成されている。特に、音声認識部151は、発音−アルファベット表に従って音声入力インターフェース11によって受信された音声入力信号に対応するアルファベット文字列を取得し、アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定することができる。多言語の語彙と原語に従ってセンテンスを形成する。音声認識部151が音声認識(すなわち、上述の音声入力信号に基づいてセンテンスを形成する手順)を完了してセンテンスを取得した後、意味解析部153は、センテンスの意味解析を実行する。特に、意味解析部153は、修正手順、解析状態決定手順、または音声認識部151によって生成されたセンテンスを直接出力する手順を選択的に実行することができる。意味解析部153は、修正手順が成功したと判断すると、修正されたセンテンスを出力する。意味解析部153は、修正手順が失敗したと判断すると、解析状態決定手順を実行する。修正手順および解析状態決定手順の実行内容については後述する。
図1に示す実施形態では、発音アルファベット表、多言語の語彙、および上記のようにテーマ語彙−意味関係データセットは、メモリ2に記憶することができる。プロセッサ15は、音声認識および意味解析を実行するために上記データを取得するためにメモリ2と接続され得る。図1に示すように、メモリ2は、多言語全集21、多言語の語彙辞書23、第1のテーマ語彙−意味関係データベース25、および第2のテーマ語彙−意味関係データベース27を含むことができる。多言語全集21は発音アルファベット表を記憶する。多言語の語彙辞書23は、多言語の語彙を貯蔵する。第1のテーマ語彙−意味関係データベース25は、中国語のテーマ語彙−意味関係データセットなど、第1の言語のテーマ語彙−意味関係データセットを格納する。第2のテーマ語彙−意味関係データベース27は、英語のテーマ語彙−意味関係データセットなど、第2の言語でのテーマ語彙−意味関係データセットを格納する。図1は、メモリ2が2つのテーマ語彙−意味関係データベースを有することを例示的に示していることに留意すべきである。しかし、他の実施形態では、メモリ2は、上記の2つのテーマ語彙−意味関係データベースのうちの1つのみを有するか、または様々な言語でそれぞれより多くのテーマ語彙−意味関係データベースを有することができる。
上述の多言語全集21、多言語の語彙辞書23、第1のテーマ語彙−意味関係データベース25および第2のテーマ語彙−意味関係データベース27は、1つ以上の不揮発性記憶媒体(フラッシュメモリ、読み取り専用メモリ、磁気メモリなど)によって形成することができる。例えば、多言語全集21、多言語の語彙辞書23、第1のテーマ語彙−意味関係データベース25、および第2のテーマ語彙−意味関係データベース27のそれぞれは、独立して配置される不揮発性記憶媒体とすることができる。別の例として、多言語全集21、多言語の語彙辞書23、第1のテーマ語彙−意味関係データベース25および第2のテーマ語彙−意味関係データベース27は、コンピュータプログラムによって定義された同じ不揮発性記憶媒体内の異なる磁性領域または複数の記憶領域であり得る。本発明は、メモリ2を形成する不揮発性記憶媒体の数を制限せず、メモリ2のどの不揮発性記憶媒体が発音アルファベット表、多言語の語彙、およびテーマ語彙−意味関係データセットを記憶することに限定しない。図1に示す実施形態では、メモリ2は、多言語音声認識およびテーマ−素意義解析装置1から離隔し、プロセッサ15との通信接続を有するリモートメモリ(例えばクラウドハードディスク)であり得る。別の実施形態では、メモリ2は、多言語音声認識およびテーマ−素意義解析装置1に含めることができる。すなわち、多言語音声認識およびテーマ−素意義解析装置1は、メモリ2をさらに含むことができ、メモリ2はプロセッサ15と電気的に接続することができる。
図1および図2を参照されたい。図2は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法のフローチャートである。図2に示されるように多言語音声認識およびテーマ−素意義解析方法は、図1に示されるように多言語音声認識およびテーマ−素意義解析装置1に適用することができる。以下では、多言語音声認識およびテーマ−素意義解析装置1によって実行された多言語音声認識およびテーマ−素意義解析方法の複数の実施について説明する。しかしながら、本発明の多言語音声認識およびテーマ−素意義解析方法は、図1に示す装置構造によって実施されることに限定されない。
ステップS1において、多言語音声認識およびテーマ−素意義解析装置1は、音声認識部151により、発音アルファベット表に従って、音声入力信号に対応するアルファベット文字列を取得する。ステップS2において、多言語音声認識・テーマ−素意義解析装置1は、音声認識部151により、多言語の語彙に従って、アルファベット文字列が複数の原語に対応すると決定する。ステップS3において、多言語音声認識およびテーマ−素意義解析装置1は、音声認識部151により、多言語の語彙と複数の原語に応じたセンテンスを形成する。ステップS4において、多言語音声認識およびテーマ−素意義解析装置1は、意味解析部153により、修正されたセンテンスを生成する修正手順、解析状態判定手順、またはセンテンスおよびセンテンスとテーマ語彙−意味関係のデータセットに従ってセンテンスを出力する手順を選択的に実行する。テーマ語彙−意味関係データセットに従って意味解析部153によって生成された解析結果が条件C1に一致する場合、ステップS5:センテンスを出力することが実行される。解析結果が条件C2に一致する場合、ステップS6:解析状態決定手順の実行が実行される。解析結果が条件C3に一致する場合、ステップS7:修正手順の実行が実行される。条件C1〜C3の詳細については後述する。修正手順が実行されるステップS7の後、ステップS8において、多言語音声認識およびテーマ−素意義解析装置1は、意味解析部153によって修正手順が成功したかどうかを判定する。修正手順が成功すると、ステップS9で、多言語音声認識およびテーマ−素意義解析装置1の意味解析部153は、修正されたセンテンスを出力インターフェース13に出力し、出力インターフェースは、修正されたセンテンスを出力する(例えば、表示画面上の修正されたセンテンスを表示する)。修正手順が失敗した場合、多言語音声認識およびテーマ−素意義解析装置1は、ステップS6を実行して、解析状態決定手順を実行し、意味解析部153による解析状態決定手順の決定結果を選択的に出力する。修正手順および解析状態決定手順の内容については後述する。
さらにステップS1を説明する。音声認識部151は、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得することにより、音声認識部151は、音声入力インターフェース11によって受信された音声が複数の発音を含むと判定し、これらの発音を発音アルファベット表と比較して、音声に対応するアルファベット文字列を取得することができる。より具体的には、発音アルファベット表は、複数の事前に記憶された発音とそれに対応するアルファベットを含むことができる。たとえば、アルファベットは国際音声アルファベット(IPA)、台湾ローマ字表記システム(TL)、漢語ピン音または他の種類のアルファベットに属する。本発明の一実施形態に係る発音アルファベット表の概略図である図3を参照されたい。上記の発音アルファベット表は、図3の形式にすることができる。図3は、主にIPAを使用して、多言語音声認識に適用され、発音に対応するTLを配置する。特に、図3に示されている発音アルファベットテーブルでは、「[]」に記載されているアルファベットはIPAに属する。「[]」に続くアルファベットは、共通化された台湾ローマ字化(共通TL)に属する。太字の共通TLアルファベットは、元のTLには含まれない。斜体の共通TLアルファベットは元のTLに含まれるが、対応する発音を示すためには使用されない。「(なし)」は、対応する発音が共通TLで示されていないことを示す。「/」で区切られたアルファベットは「無声/有声」を意味する。つまり、「/」の左側のアルファベットは無声で、右側は有声である。「/」で区切られていないアルファベットは無声である。「X」とマークされたフィールドは発音できないと判断される。
より具体的には、図3に示す発音アルファベット表は、台湾ローマ字表記システムに含まれるアルファベットに加えて、少なくとも1つの特定のアルファベットグループA1を提供し、特定のアルファベットグループA1は、後部歯茎音または反転音に対応する複数のアルファベットを含む。より具体的には、特定のアルファベットグループA1は、後部歯茎音または反転音の無気破裂音に対応するアルファベット、後部歯茎音または反転音の有気破擦音に対応するアルファベット、後部歯茎音または反転音の摩擦音に対応するアルファベットおよび、後部歯茎音または反転音の接近音に対応するアルファベットを含む。より具体的には、上記の特定のアルファベットグループA1は、標準中国語の発音と客家語の発音に密接に関連している。前述の特定のアルファベットグループA1を既存の台湾語ローマ字体系に追加することにより、本発明で提供される多言語音声認識およびテーマ−素意義解析方法は、標準中国語、台湾語、または客家語の発音をより正確に認識する。したがって音声認識手順の精度を向上させることができる。
図2のステップS2をさらに説明する。音声認識部151により、多言語の語彙に従ってアルファベット文字列が複数の原語に対応すると判定する。図1、図2、図4および図5を参照されたい。図4は、本発明の一実施形態に係る多言語の語彙の概略図である。図5は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分的なフローチャートである。本発明で提供される多言語の語彙は、それぞれが特定の言語の少なくとも1つの単語の意味および特定の言語の少なくとも1つのアルファベットグループを含む複数の意味グループを含むことができる。図4に示すように、多言語の語彙は意味グループG1〜G4を含むことができ、意味グループG1、G2、G3、およびG4のそれぞれは、音声Pの一部、第1言語の単語の意味M1および第2言語の単語の意味M2に対応するデータを含むことができる。意味グループG1、G2、G3、およびG4のそれぞれは、複数の言語L1〜L5にそれぞれ属するアルファベットグループ(以下「事前に記憶されたアルファベットグループ」)を含む。より具体的には、図4に示される事前に記憶されたアルファベットグループは、図3に示されるアルファベットに基づいて形成される。本実施形態では、第1言語の単語の意味M1は中国標準語の単語の意味を示し、第2言語の単語の意味M2は英語における単語の意味を示す。言語L1〜L5はそれぞれ標準中国語、台湾語、客家語、英語、日本語である。たとえば、事前に記憶されているアルファベットグループ[G1、L1]、[G1、L2]、[G1、L3]、[G1、L4]、および[G1、L5]は、それぞれ「I」を意味する単語の標準中国語の発音、台湾語の発音、客家語の発音、英語の発音および日本語の発明を示す。図4は、4つの意味グループが多言語の語彙に含まれ、各意味グループは2つの言語の単語の意味と5つの言語のアルファベットのグループを含むことを示すことに注意されたい。しかし、これらの数は単なる例であり、本発明はこれらに限定されない。
図2に示されるステップS2は、図5に示されるステップS21〜S29を含むことができる。図5の実施形態では、前述のステップS1で得られたアルファベット文字列がMアルファベットによって形成され、Mは自然数であると仮定する。ステップS21において、音声認識部151は、まず、認識対象のアルファベットグループの先頭位置の値を1に設定し、認識対象のアルファベットグループの終了位置の値をMに設定することができる。他の単語では、音声認識の開始時に、音声認識部151は、アルファベット文字列の1番目からM番目のアルファベットを認識対象のアルファベットグループに設定することができる。次に、ステップS22において、音声認識部151は、認識されるアルファベットグループと一致する多言語の語彙内の事前に記憶されたアルファベットグループの数を決定する。特に、音声認識部151は、認識されるアルファベットグループと同一の事前に記憶されたアルファベットグループについて多言語の語彙を検索することができる。音声認識部151は、一致している事前に記憶されたアルファベットグループの数がゼロであると判定すると、音声認識部151は、ステップS23:終了位置の値から1を減算することを実行し、一方、認識されるアルファベットグループは1番目〜(M−1)番目のアルファベットで構成される。そのとき、音声認識部151は、ステップS22を再度実行する。音声認識部151は、認識されるアルファベットグループと一致する多言語の語彙における1つ以上の事前に記憶されたアルファベットグループを見つけるまで、ステップS22およびS23を連続的に実行する。
音声認識部151は、認識対象のアルファベットグループと一致する多言語の語彙に一つの事前に記憶されたアルファベットグループがあると判定した場合、音声認識部151は事前に記憶されたアルファベットグループを原語とみなして、終了位置の値を取得する、ステップS24を実行する。一方、音声認識部151は、認識対象のアルファベットグループと一致する多言語の語彙に複数の事前に記憶されたアルファベットグループがあると判断した場合、事前に記憶されたアルファベットグループを保留中の単語セットに記憶して、終了位置の値を取得する、ステップS25を実行する。特に、音声認識部151は、この保留中の単語セットに対応する先頭位置および終了位置の値をさらに記録することができる。保留中の単語セットは、プロセッサ15に含まれるレジスタまたはメモリ2に格納されるか、プロセッサ15に接続することができるが、これは本発明では限定されない。
ステップS26において、音声認識部151は、終了位置の値がMに等しいか否かを判定する。音声認識部151が、終了位置の値がMに等しくないと判定した場合、音声認識部151アルファベット文字列がまだ決定されていないどの原語を含むかを示し、音声認識部151は、ステップS27:終了位置の値と先頭位置の値の合計を、先頭位置の新しい値に設定し、終了位置の値をMに設定することを実行する。それから、ステップS22を再実行する。例えば、前のステップS24またはS25で音声認識部151によって取得された終了位置の値がNである場合、音声認識部151は、多言語の語彙がアルファベット文字列の1番目からN番目のアルファベットと一致する1つ以上の事前に記憶されたアルファベットグループを含むと判定したことを示す。音声認識部151は、アルファベット文字列の第N番目のアルファベットまでを、アルファベット文字列の第(1+N)番目からM番目のアルファベットに一致する事前に記憶されたアルファベットグループを検索する。
一方、音声認識部151は、終了位置の値がMに等しいと判定すると、音声認識部151がアルファベット文字列に含まれる原語を決定したことを示す。次に、音声認識部151はステップS28におけるレジスタまたはメモリ2に保留中のワードセットが存在するかどうかを判定する。音声認識部151が保留中の単語セットがあると判定すると、今のところ判定されるべきアルファベット文字列における原語があることを示す。音声認識部151が複数の保留中の単語セットがあると判定すると、今のところ判定されるべきアルファベット文字列内に複数の原語があることを示す。これらの2つの場合、音声認識部151はステップS29を実行する。各保留中の単語セットについて、アルファベット文字列で決定された原語(以下「決定された原語」と呼ぶ)の言語分布に従って、原語となる保留中の単語セットに事前に記憶されているアルファベットグループの一つを選択する。特に、保留中の単語セットが第1言語の事前に記憶されたアルファベットグループおよび第2言語の事前に記憶されたアルファベットグループを記憶し、決定された原語および第1言語に属する割合が高い場合、音声認識部151はセンテンスを形成するための原語の1つとなる保留中の単語セットから第1言語における事前に記憶されたアルファベットグループを選択することができる。決定された原語の言語分布が均一である場合、音声認識部151は、最初に、原語である保留中の単語セットから事前に記憶されたアルファベットグループのいずれか1つを選択し、後で修正手順を実行することができる。
音声認識部151が、原語となるように各保留中の単語セットから事前に記憶されたアルファベットグループの選択を完了した後、アルファベット文字列に対応するすべての原語が取得されてもよい。また、音声認識部151によって実行される判定ステップS27の結果が否定(すなわち「No」)の場合、アルファベット文字列に対応するすべての原語が取得されたことを示す。上述のステップにより、音声認識部151は、アルファベット文字列が単一の原語であると決定するか、アルファベット文字列を複数の原語に分割する(すなわち、アルファベット文字列で単語分割を実行する)ことができる。認識対象のアルファベットグループの終了位置の値がMに設定されるステップS21およびステップS27により、音声認識部151は、前方の最長一致原則に基づく単語分割を実行することができる。さらに、音声認識部151は、後方最長一部原則、NLTKアルゴリズム、ジーバアルゴリズムなどに基づいて単語分割を実行することができる。
図2のステップS3をさらに説明する。音声認識部151により、多言語の語彙および原語に従ってセンテンスを形成する。図1、図2、図4および図6を参照されたい。ここで、図6は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分的なフローチャートである。ステップS31において、音声認識部151は、決定された原語の言語ファミリー分布に従って統一された言語を選択することができる。ステップS32において、音声認識部151は、多言語の語彙に従って、決定された原語に対応する変換された単語を取得し、変換された単語によってセンテンスを形成する。特に、いくつかの特定の言語が単一の言語ファミリーに属する規則は、音声認識部151に事前に設定できる。図4に示す多言語の語彙を例に取ると、音声認識部151は、言語L1〜L3(標準中国語、台湾語、客家語)は、中国語のファミリーに属すると認識するように事前に設定できる。前のステップで決定された原語が/uo214//khia24//’baisirkhl/である場合、/uo214/は中国語のファミリーに属する言語L1に対応し、/khia24/は同じく中国語のファミリーに対応する言語L2に属するが、/’baisirkhl/は英語のファミリーに属する言語L4に対応し、音声認識部151は中国語のファミリーに属する原語の割合が高いと判断し、音声認識部151は統一された言語である中国語を選択する。次いで、音声認識部151は、原語/uo214/、/khia24/および/’baisirkhl/にそれぞれ対応する単語の意味「I」、「ride」および「bicycle」を取得し、これらの単語の意味を変換された単語とみなし、これらの変換された単語によって「I ride bicycle」という文を形成する。
図2の前述のステップS1〜S3により、多言語音声認識およびテーマ−素意義解析装置1の音声認識部151は、最初に音声入力に対応するセンテンスを取得することができる。次に、意味解析部153は、修正手順を選択的に実行することができる。図2のステップS4をさらに説明する。意味解析部153により、センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスの出力手順を選択的に実行する。図1、図2、図7、および図8を参照のこと。図7は、本発明の一実施形態に係るテーマ語彙−意味関係データセットの概略図であり、図8は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分的なフローチャートである。図7に示すように、テーマ語彙−意味関係のデータセットは、教育テーマ、医療テーマ、ビジネステーマなどの複数のテーマを含めることができる。これらの各テーマには、人、物事、場所、オブジェクトのカテゴリが含まれ、各カテゴリには事前に記憶された複数の単語が含まれる。例としての教育テーマの場合、人のカテゴリーには、「教師」、「生徒」、「校長」などの事前に記憶された単語を含めることができる。物事のカテゴリには、「教える」、「学習する」などの事前に記憶された単語を含めることができる。場所のカテゴリには、「教室」、「学校」などの事前に記憶された単語を含めることができる。オブジェクトのカテゴリには、「教科書」、「文房具」などを含めることができる。テーマ語彙−意味関係のデータセットは、これらの事前に記憶された単語間の関係を含み、異なるカテゴリの事前に記憶された単語間の関係などを含むことができ、これらの関係は、図7において点線によって示される。テーマ語彙−意味関係データセットは図7として例示的に示されているが、他の実施形態では、テーマ語彙−意味関係データセットは他の種類のテーマを含むことができ、これらのテーマにはそれぞれ、1つ以上の事前に記憶された単語を含むさまざまなカテゴリを含めることができることに留意されたい。
図2のステップS4は、図8に示すステップS41〜S43を含むことができる。ステップS41〜S43により、意味解析部153は、センテンスおよびテーマ語彙−意味関係データセットに従ってセンテンス中の変換された単語のエラー率を判定することができる。センテンスは、以前の音声認識によって取得される。ステップS41において、意味解析部153は、センテンスが1つ以上のサブセンテンスを有すると判定することができる。特に、多言語の語彙に従って音声認識151によって以前に取得されたセンテンス中の変換された単語は、それぞれ音声の一部を有する。意味解析部153は、変換されたすべての単語の音声の一部に基づいて、センテンスが1つ以上のテーマを含むことを決定することができる。一般に、センテンスの構成は、多くの場合、動詞に主語または/および受け手が加わる。したがって、意味解析部153は、センテンス中の動詞の数に基づいて、センテンスが1つ以上のサブセンテンスを有すると判定することができる。例えば、意味解析部153は、動詞及び動詞の前または後に名詞または代名詞を含むように各サブセンテンスを設定することができる。別の実施形態では、意味解析部153は、まず、センテンス中の変換された単語の数に応じて、音声の一部に基づいてセンテンスをサブセンテンスに分割するかどうかを決定することができる。センテンス中の変換された単語の数が事前設定された数(例えば、5)未満の場合、そのセンテンスはサブセンテンスであると判定される。さらに別の実施形態では、意味解析部153は、センテンスがサブセンテンスによって形成されていることを決定し、次いでステップS42を実行することができる。つまり、上記の音声の部分的な解析は実行されない。上記のさまざまなルールは、装置の内部メモリまたはリモートメモリに事前に記憶し、意味解析部によって取得および実行できる。
次に、ステップS42において、意味解析部153は、サブセンテンスごとに、テーマの語彙−意味関係のデータセットに従って同じテーマに属するサブセンテンスにおける変換された単語の割合(以下、「サブセンテンスの均一テーマ割合」と呼ぶ)を決定する。例えば、サブセンテンスに5つの変換された単語があり、これらの変換されたワードのうちの4つが教育テーマに属する場合、意味解析部153は、サブセンテンスの均一なテーマ割合が80%であると判定する。ステップS43において、意味解析部153は、各サブセンテンスの均一なテーマの割合に従ってエラー率を取得する。例えば、意味解析部153は、すべてのサブセンテンスの均一なテーマの割合の平均を計算し、この平均を100%から差し引いてエラー率を取得することができる。
前述のように、メモリ2は、異なる言語の複数のテーマ語彙−意味関係データセット(例えば、中国語テーマ語彙−意味関係データセット、英語テーマ語彙−意味関係データセットなど)を格納することができる。本実施形態において、図2のS4は、これらの事前に記憶されたテーマ語彙−意味関係データセットの1つを以下の解析の基礎として選択するステップを含むことができる。具体的には、センテンスの統一された言語に従って、意味解析部153は、統一された言語に属するテーマ語彙−意味関係データセットを選択する。
図2および前述の実施形態に示すように、意味解析部153は、解析結果が条件C1、条件C2または条件C3に一致するかどうかを判定し、解析結果に応じてセンテンスの出力手順、解析状態決定手順、または修正手順を選択的に実行する。特に、条件C1は、前述のように意味解析部153によって得られたセンテンス中の変換された単語のエラー率が第1エラー率の範囲内にあることを示す。条件C2は、エラー率が第2エラー率の範囲内にあることを示す。条件C3は、エラー率が第3のエラー率の範囲内にあることを示す。より具体的には、第1エラー率の範囲は20%未満に設定される。第2エラー率の範囲は、40%を超えるように設定される。第3エラー率の範囲は20%〜40%に設定される。これらの割合は単なる例であり、実際の要件に基づいてユーザーが調整することができ、上記の例に限定されない。
意味解析部153が、エラー率が第1エラー率の範囲内にあると判定し、音声認識部151によって生成されたセンテンスの正しい割合が特定のレベルにあることを示すと、意味解析部153は音声認識部151により生成された文を直接出力する。
エラー率が第2エラー率の範囲内にあり、音声認識部151によって生成されたセンテンスの正しい割合が低すぎて意味解析の修正手順によって改善できないことを示す場合、意味解析部153は、次に、解析状態決定手順を実行する。特に、解析状態決定手順は、(音声認識部151により、アルファベット文字列が多言語の語彙による複数の原語に対応すると決定する)ステップS2の実行回数が事前に設定された数(例えば3)を超えるかどうかを判定することを含む。ここで、事前に設定された数は、音声認識部151によって使用され得る単語分割方法のタイプの数に従って設定されるか、または実際の要件に従って設定され得る。実行回数が事前に設定された回数を超えていない場合、ステップS2を再度実行してアルファベット文字列を取得し、アルファベット文字列が他の原語に対応することを再判定するように音声認識部151に命令し、実行回数に1を加える。そして、実行回数が事前に設定された回数を超えた場合、故障の表示または音声入力要求を出力インターフェース13を介して出力し、故障の表示または音声入力要求は解析状態判定手順の判定結果とみなされる。より具体的には、音声認識部151は、第1の単語分割方法によりステップS2を実行し、第1の単語分割方法とは異なる第2の単語分割方法によりステップS2を再実行することができる。
エラー率が第3エラー率の範囲内にある場合、音声認識部151は修正手順を実行する。図1、図2、および図9を参照されたい。図9は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の修正手順のフローチャートである。修正手順は、図9に示されるステップS71〜S74を含むことができる。ステップS71において、意味解析部153は、言語認識のための音響モデルを使用して紛らわしいセンテンスセットを生成する。紛らわしいセンテンスセットは、複数のセンテンス候補を含む。特に、言語認識音響モデルは、N−best検索アルゴリズムを使用して、センテンスの元の音声入力に対応する1つ以上のセンテンス候補を取得し、1つ以上のセンテンス候補を紛らわしいセンテンスセットに格納できる。たとえば、N−best検索アルゴリズムによって取得されたセンテンス候補の数は5である。ステップS72において、意味解析部153は、多言語の語彙およびセンテンス中の変換された単語に対応する原語に従って、紛らわしいセンテンスセットを補足する。特に、意味解析部153は、原語として役立つアルファベットグループと同一または類似する他の事前に記憶されたアルファベットグループの多言語の語彙を検索し、これらの事前に記憶されたアルファベットグループによって1つ以上のセンテンス候補を形成し、当該1つ以上のセンテンス候補を紛らわしいセンテンスセットに記憶することができる。より具体的には、メモリ2または意味解析部153は、/tsciah5/と/khia24/との間の関係など、複数の紛らわしい音声関係を記憶することができる。この場合、意味解析部153は、原語として機能するアルファベットと同一の他の事前に記憶されたアルファベットグループを検索することに加えて、原語と混乱する関係を有する事前に記憶されたアルファベットグループをさらに検索することができる。
ステップS73において、意味解析部153は、テーマ語彙−意味関係データセットに従って、紛らわしいセンテンスセット内のセンテンス候補に適切なセンテンス候補が存在するかどうかを判定する。特に、適切なセンテンス候補は、単語間の意味関係が特定の率以下のエラー率を有するセンテンス候補を指し、エラー率は、図8の実施形態のステップS41〜ステップS43で説明されるように決定され、繰り返されない。たとえば、特定のレートは20%である。意味解析部153は、紛らわしいセンテンスセットに適切なセンテンス候補があると判定すると、意味解析部153はステップS74を実行する。音声認識によって最初に得られたセンテンスを適切なセンテンス候補に置き換え、修正手順が成功したと判定する。意味解析部153は、紛らわしいセンテンスセットにおいて適切なセンテンス候補が存在しないと判定すると、修正手順が失敗したと判定する。修正手順が失敗すると、意味解析部153は、次に、前述の解析状態決定手順を実行する。
上記を考慮して、本開示で提供される多言語音声認識およびテーマ−素意義解析方法および装置は、特定の音声認識および特定のテーマ素意義解析を組み合わせる。これにより、音声の内容を対応するセンテンスに変換する精度が向上する。
本発明は、音声認識方法に関し、特に多言語音声認識方法に関する。
音声認識技術の目標は、人間の音声コンテンツを対応するセンテンスに変換することである。音声認識技術は、音声ダイヤル、音声ナビゲーション、屋内装置制御、書き取りデータの録音などを含む幅広いアプリケーションを含む。グローバリゼーションの発展に伴い、異なる国籍の人々の間の交流がますます頻繁になってきており、対話においてしばしば混合した表現がある。そのため、多言語音声認識装置の需要が増えている。多言語認識の課題に加えて、ユーザーの不正確な発音は、ユーザーの意味に適合しない、装置によって得られる変換結果をもたらす。
本開示の1つ以上の実施形態によれば、多言語音声認識およびテーマ−意義素解析方法は、音声認識部により実行される、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、前記アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定し、前記多言語の語彙および原語に従ってセンテンスを形成するステップを含み、意味解析部により実行される、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順または前記センテンスを出力する手順を選択的に実行し、前記修正手順が成功したとき、前記修正されたセンテンスを出力し、前記修正手順が失敗したとき、前記解析状態決定手順を実行して、判定された結果を選択的に出力する前記解析状態決定手順を実行するステップを含む。
本開示の1つ以上の実施形態によれば、多言語音声認識およびテーマ−意義素解析装置は、音声入力インターフェースと、出力インターフェースと、プロセッサとを含む。音声入力インターフェースは、音声入力信号を受信するように構成される。出力インターフェースは、センテンス、修正されたセンテンス、または判定された結果を出力するように構成される。前記プロセッサは、前記音声入力インターフェースと前記出力インターフェースに接続され、互いに接続された音声認識部および意味解析部を含む。音声認識部は、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、多言語の語彙に従って前記アルファベット文字列が複数の原語に対応すると決定し、前記多言語の語彙と前記原語に従って、センテンスを形成するように構成される。意味解析部は、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスを出力する手順を選択的に実行し、前記修正手順が成功した場合に修正されたセンテンスを出力し、修正手順が失敗した場合に決定結果を選択的に出力するために前記解析状態決定手順を実行するように構成される。
本開示は、説明のためにのみ与えられ、したがって本開示を限定するものではない。以下に与えられる詳細な説明及び添付の図面によってより理解されるであろう。
本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析装置の機能ブロック図である。
本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法のフローチャートである。
本発明の一実施形態に係る発音アルファベット表の概略図である。
本発明の一実施形態に係る多言語の語彙の概略図である。
本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分フローチャートである。
本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分フローチャートである。
本発明の一実施形態に係るテーマ語彙−意味関係データセットの概略図である。
本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分フローチャートである。
本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の修正手順のフローチャートである。
以下の詳細な説明では、説明を目的として、開示された実施形態の完全な理解を提供するため、多くの具体的な詳細が説明される。しかしながら、これらの特定の詳細無しに1つ以上の実施形態が実施されうることは明らかであろう。他の例では、図面を単純化するために、よく知られている構造と装置が概略的に示される。
図1を参照のこと。図1は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析装置1の機能ブロック図である。多言語音声認識およびテーマ−意義素解析装置1は、音声入力インターフェース11、出力インターフェース13、およびプロセッサ15を備える。音声入力インターフェース11は、例えば、音声入力信号を受信するためのマイクロホンなどの音声受信機である。音声入力信号は、たとえば、ユーザーによって発せられる音波波形によって形成される。出力インターフェース13は、音声入力信号に対応するセンテンスを出力するように構成されている。センテンスはプロセッサ15によって生成されるが、生成方法については後述する。例えば、出力インターフェース13はディスプレイであり、ディスプレイ画面上にセンテンスを表示する。別の例として、出力インターフェース13は有線または無線接続インターフェースであり、装置の内部メモリまたはセンテンスを記憶できるリモートメモリに接続できる。または、出力インターフェース13は、コントローラと接続することができ、コントローラは、音声制御のアプリケーションである1つ以上の被制御装置を制御するための制御命令を生成することができる。
プロセッサ15は、例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなどである。プロセッサは、音声入力インターフェース11および出力インターフェース13に接続され、音声入力信号に対応するセンテンスを生成するために音声入力インターフェース11によって受信した音声入力信号に対して、音声認識および意味解析を実行することができる。図1に示されるように、プロセッサ15は、音声認識部151および音声認識および意味解析をそれぞれ実行する意味解析部153を備えることができる。一実施形態では、音声認識部151および意味解析部153は、ハードウェアコンポーネント(例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなど)である。別の実施形態では、音声認識部151および意味解析部153は、単一のハードウェア(例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなど)によって実行される2つのファームウェアまたは2つのソフトウェアである。
上述したように、音声認識部151は、音声認識を実行するように構成されている。特に、音声認識部151は、発音−アルファベット表に従って音声入力インターフェース11によって受信された音声入力信号に対応するアルファベット文字列を取得し、アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定することができる。多言語の語彙と原語に従ってセンテンスを形成する。音声認識部151が音声認識(すなわち、上述の音声入力信号に基づいてセンテンスを形成する手順)を完了してセンテンスを取得した後、意味解析部153は、センテンスの意味解析を実行する。特に、意味解析部153は、修正手順、解析状態決定手順、または音声認識部151によって生成されたセンテンスを直接出力する手順を選択的に実行することができる。意味解析部153は、修正手順が成功したと判断すると、修正されたセンテンスを出力する。意味解析部153は、修正手順が失敗したと判断すると、解析状態決定手順を実行する。修正手順および解析状態決定手順の実行内容については後述する。
図1に示す実施形態では、発音アルファベット表、多言語の語彙、および上記のようにテーマ語彙−意味関係データセットは、メモリ2に記憶することができる。プロセッサ15は、音声認識および意味解析を実行するために上記データを取得するためにメモリ2と接続され得る。図1に示すように、メモリ2は、多言語全集21、多言語の語彙辞書23、第1のテーマ語彙−意味関係データベース25、および第2のテーマ語彙−意味関係データベース27を含むことができる。多言語全集21は発音アルファベット表を記憶する。多言語の語彙辞書23は、多言語の語彙を貯蔵する。第1のテーマ語彙−意味関係データベース25は、中国語のテーマ語彙−意味関係データセットなど、第1の言語のテーマ語彙−意味関係データセットを格納する。第2のテーマ語彙−意味関係データベース27は、英語のテーマ語彙−意味関係データセットなど、第2の言語でのテーマ語彙−意味関係データセットを格納する。図1は、メモリ2が2つのテーマ語彙−意味関係データベースを有することを例示的に示していることに留意すべきである。しかし、他の実施形態では、メモリ2は、上記の2つのテーマ語彙−意味関係データベースのうちの1つのみを有するか、または様々な言語でそれぞれより多くのテーマ語彙−意味関係データベースを有することができる。
上述の多言語全集21、多言語の語彙辞書23、第1のテーマ語彙−意味関係データベース25および第2のテーマ語彙−意味関係データベース27は、1つ以上の不揮発性記憶媒体(フラッシュメモリ、読み取り専用メモリ、磁気メモリなど)によって形成することができる。例えば、多言語全集21、多言語の語彙辞書23、第1のテーマ語彙−意味関係データベース25、および第2のテーマ語彙−意味関係データベース27のそれぞれは、独立して配置される不揮発性記憶媒体とすることができる。別の例として、多言語全集21、多言語の語彙辞書23、第1のテーマ語彙−意味関係データベース25および第2のテーマ語彙−意味関係データベース27は、コンピュータプログラムによって定義された同じ不揮発性記憶媒体内の異なる磁性領域または複数の記憶領域であり得る。本発明は、メモリ2を形成する不揮発性記憶媒体の数を制限せず、メモリ2のどの不揮発性記憶媒体が発音アルファベット表、多言語の語彙、およびテーマ語彙−意味関係データセットを記憶することに限定しない。図1に示す実施形態では、メモリ2は、多言語音声認識およびテーマ−意義素解析装置1から離隔し、プロセッサ15との通信接続を有するリモートメモリ(例えばクラウドハードディスク)であり得る。別の実施形態では、メモリ2は、多言語音声認識およびテーマ−意義素解析装置1に含めることができる。すなわち、多言語音声認識およびテーマ−意義素解析装置1は、メモリ2をさらに含むことができ、メモリ2はプロセッサ15と電気的に接続することができる。
図1および図2を参照されたい。図2は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法のフローチャートである。図2に示されるように多言語音声認識およびテーマ−意義素解析方法は、図1に示されるように多言語音声認識およびテーマ−意義素解析装置1に適用することができる。以下では、多言語音声認識およびテーマ−意義素解析装置1によって実行された多言語音声認識およびテーマ−意義素解析方法の複数の実施について説明する。しかしながら、本発明の多言語音声認識およびテーマ−意義素解析方法は、図1に示す装置構造によって実施されることに限定されない。
ステップS1において、多言語音声認識およびテーマ−意義素解析装置1は、音声認識部151により、発音アルファベット表に従って、音声入力信号に対応するアルファベット文字列を取得する。ステップS2において、多言語音声認識・テーマ−意義素解析装置1は、音声認識部151により、多言語の語彙に従って、アルファベット文字列が複数の原語に対応すると決定する。ステップS3において、多言語音声認識およびテーマ−意義素解析装置1は、音声認識部151により、多言語の語彙と複数の原語に応じたセンテンスを形成する。ステップS4において、多言語音声認識およびテーマ−意義素解析装置1は、意味解析部153により、修正されたセンテンスを生成する修正手順、解析状態判定手順、またはセンテンスおよびセンテンスとテーマ語彙−意味関係のデータセットに従ってセンテンスを出力する手順を選択的に実行する。テーマ語彙−意味関係データセットに従って意味解析部153によって生成された解析結果が条件C1に一致する場合、ステップS5:センテンスを出力することが実行される。解析結果が条件C2に一致する場合、ステップS6:解析状態決定手順の実行が実行される。解析結果が条件C3に一致する場合、ステップS7:修正手順の実行が実行される。条件C1〜C3の詳細については後述する。修正手順が実行されるステップS7の後、ステップS8において、多言語音声認識およびテーマ−意義素解析装置1は、意味解析部153によって修正手順が成功したかどうかを判定する。修正手順が成功すると、ステップS9で、多言語音声認識およびテーマ−意義素解析装置1の意味解析部153は、修正されたセンテンスを出力インターフェース13に出力し、出力インターフェースは、修正されたセンテンスを出力する(例えば、表示画面上の修正されたセンテンスを表示する)。修正手順が失敗した場合、多言語音声認識およびテーマ−意義素解析装置1は、ステップS6を実行して、解析状態決定手順を実行し、意味解析部153による解析状態決定手順の決定結果を選択的に出力する。修正手順および解析状態決定手順の内容については後述する。
さらにステップS1を説明する。音声認識部151は、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得することにより、音声認識部151は、音声入力インターフェース11によって受信された音声が複数の発音を含むと判定し、これらの発音を発音アルファベット表と比較して、音声に対応するアルファベット文字列を取得することができる。より具体的には、発音アルファベット表は、複数の事前に記憶された発音とそれに対応するアルファベットを含むことができる。たとえば、アルファベットは国際音声アルファベット(IPA)、台湾ローマ字表記システム(TL)、漢語ピン音または他の種類のアルファベットに属する。本発明の一実施形態に係る発音アルファベット表の概略図である図3を参照されたい。上記の発音アルファベット表は、図3の形式にすることができる。図3は、主にIPAを使用して、多言語音声認識に適用され、発音に対応するTLを配置する。特に、図3に示されている発音アルファベットテーブルでは、「[]」に記載されているアルファベットはIPAに属する。「[]」に続くアルファベットは、共通化された台湾ローマ字化(共通TL)に属する。太字の共通TLアルファベットは、元のTLには含まれない。斜体の共通TLアルファベットは元のTLに含まれるが、対応する発音を示すためには使用されない。「(なし)」は、対応する発音が共通TLで示されていないことを示す。「/」で区切られたアルファベットは「無声/有声」を意味する。つまり、「/」の左側のアルファベットは無声で、右側は有声である。「/」で区切られていないアルファベットは無声である。「X」とマークされたフィールドは発音できないと判断される。
より具体的には、図3に示す発音アルファベット表は、台湾ローマ字表記システムに含まれるアルファベットに加えて、少なくとも1つの特定のアルファベットグループA1を提供し、特定のアルファベットグループA1は、後部歯茎音または反転音に対応する複数のアルファベットを含む。より具体的には、特定のアルファベットグループA1は、後部歯茎音または反転音の無気破裂音に対応するアルファベット、後部歯茎音または反転音の有気破擦音に対応するアルファベット、後部歯茎音または反転音の摩擦音に対応するアルファベットおよび、後部歯茎音または反転音の接近音に対応するアルファベットを含む。より具体的には、上記の特定のアルファベットグループA1は、標準中国語の発音と客家語の発音に密接に関連している。前述の特定のアルファベットグループA1を既存の台湾語ローマ字体系に追加することにより、本発明で提供される多言語音声認識およびテーマ−意義素解析方法は、標準中国語、台湾語、または客家語の発音をより正確に認識する。したがって音声認識手順の精度を向上させることができる。
図2のステップS2をさらに説明する。音声認識部151により、多言語の語彙に従ってアルファベット文字列が複数の原語に対応すると判定する。図1、図2、図4および図5を参照されたい。図4は、本発明の一実施形態に係る多言語の語彙の概略図である。図5は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分的なフローチャートである。本発明で提供される多言語の語彙は、それぞれが特定の言語の少なくとも1つの単語の意味および特定の言語の少なくとも1つのアルファベットグループを含む複数の意味グループを含むことができる。図4に示すように、多言語の語彙は意味グループG1〜G4を含むことができ、意味グループG1、G2、G3、およびG4のそれぞれは、音声Pの一部、第1言語の単語の意味M1および第2言語の単語の意味M2に対応するデータを含むことができる。意味グループG1、G2、G3、およびG4のそれぞれは、複数の言語L1〜L5にそれぞれ属するアルファベットグループ(以下「事前に記憶されたアルファベットグループ」)を含む。より具体的には、図4に示される事前に記憶されたアルファベットグループは、図3に示されるアルファベットに基づいて形成される。本実施形態では、第1言語の単語の意味M1は中国標準語の単語の意味を示し、第2言語の単語の意味M2は英語における単語の意味を示す。言語L1〜L5はそれぞれ標準中国語、台湾語、客家語、英語、日本語である。たとえば、事前に記憶されているアルファベットグループ[G1、L1]、[G1、L2]、[G1、L3]、[G1、L4]、および[G1、L5]は、それぞれ「I」を意味する単語の標準中国語の発音、台湾語の発音、客家語の発音、英語の発音および日本語の発明を示す。図4は、4つの意味グループが多言語の語彙に含まれ、各意味グループは2つの言語の単語の意味と5つの言語のアルファベットのグループを含むことを示すことに注意されたい。しかし、これらの数は単なる例であり、本発明はこれらに限定されない。
図2に示されるステップS2は、図5に示されるステップS21〜S29を含むことができる。図5の実施形態では、前述のステップS1で得られたアルファベット文字列がMアルファベットによって形成され、Mは自然数であると仮定する。ステップS21において、音声認識部151は、まず、認識対象のアルファベットグループの先頭位置の値を1に設定し、認識対象のアルファベットグループの終了位置の値をMに設定することができる。他の単語では、音声認識の開始時に、音声認識部151は、アルファベット文字列の1番目からM番目のアルファベットを認識対象のアルファベットグループに設定することができる。次に、ステップS22において、音声認識部151は、認識されるアルファベットグループと一致する多言語の語彙内の事前に記憶されたアルファベットグループの数を決定する。特に、音声認識部151は、認識されるアルファベットグループと同一の事前に記憶されたアルファベットグループについて多言語の語彙を検索することができる。音声認識部151は、一致している事前に記憶されたアルファベットグループの数がゼロであると判定すると、音声認識部151は、ステップS23:終了位置の値から1を減算することを実行し、一方、認識されるアルファベットグループは1番目〜(M−1)番目のアルファベットで構成される。そのとき、音声認識部151は、ステップS22を再度実行する。音声認識部151は、認識されるアルファベットグループと一致する多言語の語彙における1つ以上の事前に記憶されたアルファベットグループを見つけるまで、ステップS22およびS23を連続的に実行する。
音声認識部151は、認識対象のアルファベットグループと一致する多言語の語彙に一つの事前に記憶されたアルファベットグループがあると判定した場合、音声認識部151は事前に記憶されたアルファベットグループを原語とみなして、終了位置の値を取得する、ステップS24を実行する。一方、音声認識部151は、認識対象のアルファベットグループと一致する多言語の語彙に複数の事前に記憶されたアルファベットグループがあると判断した場合、事前に記憶されたアルファベットグループを保留中の単語セットに記憶して、終了位置の値を取得する、ステップS25を実行する。特に、音声認識部151は、この保留中の単語セットに対応する先頭位置および終了位置の値をさらに記録することができる。保留中の単語セットは、プロセッサ15に含まれるレジスタまたはメモリ2に格納されるか、プロセッサ15に接続することができるが、これは本発明では限定されない。
ステップS26において、音声認識部151は、終了位置の値がMに等しいか否かを判定する。音声認識部151が、終了位置の値がMに等しくないと判定した場合、音声認識部151アルファベット文字列がまだ決定されていないどの原語を含むかを示し、音声認識部151は、ステップS27:終了位置の値と先頭位置の値の合計を、先頭位置の新しい値に設定し、終了位置の値をMに設定することを実行する。それから、ステップS22を再実行する。例えば、前のステップS24またはS25で音声認識部151によって取得された終了位置の値がNである場合、音声認識部151は、多言語の語彙がアルファベット文字列の1番目からN番目のアルファベットと一致する1つ以上の事前に記憶されたアルファベットグループを含むと判定したことを示す。音声認識部151は、アルファベット文字列の第N番目のアルファベットまでを、アルファベット文字列の第(1+N)番目からM番目のアルファベットに一致する事前に記憶されたアルファベットグループを検索する。
一方、音声認識部151は、終了位置の値がMに等しいと判定すると、音声認識部151がアルファベット文字列に含まれる原語を決定したことを示す。次に、音声認識部151はステップS28におけるレジスタまたはメモリ2に保留中のワードセットが存在するかどうかを判定する。音声認識部151が保留中の単語セットがあると判定すると、今のところ判定されるべきアルファベット文字列における原語があることを示す。音声認識部151が複数の保留中の単語セットがあると判定すると、今のところ判定されるべきアルファベット文字列内に複数の原語があることを示す。これらの2つの場合、音声認識部151はステップS29を実行する。各保留中の単語セットについて、アルファベット文字列で決定された原語(以下「決定された原語」と呼ぶ)の言語分布に従って、原語となる保留中の単語セットに事前に記憶されているアルファベットグループの一つを選択する。特に、保留中の単語セットが第1言語の事前に記憶されたアルファベットグループおよび第2言語の事前に記憶されたアルファベットグループを記憶し、決定された原語および第1言語に属する割合が高い場合、音声認識部151はセンテンスを形成するための原語の1つとなる保留中の単語セットから第1言語における事前に記憶されたアルファベットグループを選択することができる。決定された原語の言語分布が均一である場合、音声認識部151は、最初に、原語である保留中の単語セットから事前に記憶されたアルファベットグループのいずれか1つを選択し、後で修正手順を実行することができる。
音声認識部151が、原語となるように各保留中の単語セットから事前に記憶されたアルファベットグループの選択を完了した後、アルファベット文字列に対応するすべての原語が取得されてもよい。また、音声認識部151によって実行される判定ステップS27の結果が否定(すなわち「No」)の場合、アルファベット文字列に対応するすべての原語が取得されたことを示す。上述のステップにより、音声認識部151は、アルファベット文字列が単一の原語であると決定するか、アルファベット文字列を複数の原語に分割する(すなわち、アルファベット文字列で単語分割を実行する)ことができる。認識対象のアルファベットグループの終了位置の値がMに設定されるステップS21およびステップS27により、音声認識部151は、前方の最長一致原則に基づく単語分割を実行することができる。さらに、音声認識部151は、後方最長一部原則、NLTKアルゴリズム、ジーバアルゴリズムなどに基づいて単語分割を実行することができる。
図2のステップS3をさらに説明する。音声認識部151により、多言語の語彙および原語に従ってセンテンスを形成する。図1、図2、図4および図6を参照されたい。ここで、図6は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分的なフローチャートである。ステップS31において、音声認識部151は、決定された原語の言語ファミリー分布に従って統一された言語を選択することができる。ステップS32において、音声認識部151は、多言語の語彙に従って、決定された原語に対応する変換された単語を取得し、変換された単語によってセンテンスを形成する。特に、いくつかの特定の言語が単一の言語ファミリーに属する規則は、音声認識部151に事前に設定できる。図4に示す多言語の語彙を例に取ると、音声認識部151は、言語L1〜L3(標準中国語、台湾語、客家語)は、中国語のファミリーに属すると認識するように事前に設定できる。前のステップで決定された原語が/uo214//khia24//’baisirkhl/である場合、/uo214/は中国語のファミリーに属する言語L1に対応し、/khia24/は同じく中国語のファミリーに対応する言語L2に属するが、/’baisirkhl/は英語のファミリーに属する言語L4に対応し、音声認識部151は中国語のファミリーに属する原語の割合が高いと判断し、音声認識部151は統一された言語である中国語を選択する。次いで、音声認識部151は、原語/uo214/、/khia24/および/’baisirkhl/にそれぞれ対応する単語の意味「I」、「ride」および「bicycle」を取得し、これらの単語の意味を変換された単語とみなし、これらの変換された単語によって「I ride bicycle」という文を形成する。
図2の前述のステップS1〜S3により、多言語音声認識およびテーマ−意義素解析装置1の音声認識部151は、最初に音声入力に対応するセンテンスを取得することができる。次に、意味解析部153は、修正手順を選択的に実行することができる。図2のステップS4をさらに説明する。意味解析部153により、センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスの出力手順を選択的に実行する。図1、図2、図7、および図8を参照のこと。図7は、本発明の一実施形態に係るテーマ語彙−意味関係データセットの概略図であり、図8は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分的なフローチャートである。図7に示すように、テーマ語彙−意味関係のデータセットは、教育テーマ、医療テーマ、ビジネステーマなどの複数のテーマを含めることができる。これらの各テーマには、人、物事、場所、オブジェクトのカテゴリが含まれ、各カテゴリには事前に記憶された複数の単語が含まれる。例としての教育テーマの場合、人のカテゴリーには、「教師」、「生徒」、「校長」などの事前に記憶された単語を含めることができる。物事のカテゴリには、「教える」、「学習する」などの事前に記憶された単語を含めることができる。場所のカテゴリには、「教室」、「学校」などの事前に記憶された単語を含めることができる。オブジェクトのカテゴリには、「教科書」、「文房具」などを含めることができる。テーマ語彙−意味関係のデータセットは、これらの事前に記憶された単語間の関係を含み、異なるカテゴリの事前に記憶された単語間の関係などを含むことができ、これらの関係は、図7において点線によって示される。テーマ語彙−意味関係データセットは図7として例示的に示されているが、他の実施形態では、テーマ語彙−意味関係データセットは他の種類のテーマを含むことができ、これらのテーマにはそれぞれ、1つ以上の事前に記憶された単語を含むさまざまなカテゴリを含めることができることに留意されたい。
図2のステップS4は、図8に示すステップS41〜S43を含むことができる。ステップS41〜S43により、意味解析部153は、センテンスおよびテーマ語彙−意味関係データセットに従ってセンテンス中の変換された単語のエラー率を判定することができる。センテンスは、以前の音声認識によって取得される。ステップS41において、意味解析部153は、センテンスが1つ以上のサブセンテンスを有すると判定することができる。特に、多言語の語彙に従って音声認識151によって以前に取得されたセンテンス中の変換された単語は、それぞれ音声の一部を有する。意味解析部153は、変換されたすべての単語の音声の一部に基づいて、センテンスが1つ以上のテーマを含むことを決定することができる。一般に、センテンスの構成は、多くの場合、動詞に主語または/および受け手が加わる。したがって、意味解析部153は、センテンス中の動詞の数に基づいて、センテンスが1つ以上のサブセンテンスを有すると判定することができる。例えば、意味解析部153は、動詞及び動詞の前または後に名詞または代名詞を含むように各サブセンテンスを設定することができる。別の実施形態では、意味解析部153は、まず、センテンス中の変換された単語の数に応じて、音声の一部に基づいてセンテンスをサブセンテンスに分割するかどうかを決定することができる。センテンス中の変換された単語の数が事前設定された数(例えば、5)未満の場合、そのセンテンスはサブセンテンスであると判定される。さらに別の実施形態では、意味解析部153は、センテンスがサブセンテンスによって形成されていることを決定し、次いでステップS42を実行することができる。つまり、上記の音声の部分的な解析は実行されない。上記のさまざまなルールは、装置の内部メモリまたはリモートメモリに事前に記憶し、意味解析部によって取得および実行できる。
次に、ステップS42において、意味解析部153は、サブセンテンスごとに、テーマの語彙−意味関係のデータセットに従って同じテーマに属するサブセンテンスにおける変換された単語の割合(以下、「サブセンテンスの均一テーマ割合」と呼ぶ)を決定する。例えば、サブセンテンスに5つの変換された単語があり、これらの変換されたワードのうちの4つが教育テーマに属する場合、意味解析部153は、サブセンテンスの均一なテーマ割合が80%であると判定する。ステップS43において、意味解析部153は、各サブセンテンスの均一なテーマの割合に従ってエラー率を取得する。例えば、意味解析部153は、すべてのサブセンテンスの均一なテーマの割合の平均を計算し、この平均を100%から差し引いてエラー率を取得することができる。
前述のように、メモリ2は、異なる言語の複数のテーマ語彙−意味関係データセット(例えば、中国語テーマ語彙−意味関係データセット、英語テーマ語彙−意味関係データセットなど)を格納することができる。本実施形態において、図2のS4は、これらの事前に記憶されたテーマ語彙−意味関係データセットの1つを以下の解析の基礎として選択するステップを含むことができる。具体的には、センテンスの統一された言語に従って、意味解析部153は、統一された言語に属するテーマ語彙−意味関係データセットを選択する。
図2および前述の実施形態に示すように、意味解析部153は、解析結果が条件C1、条件C2または条件C3に一致するかどうかを判定し、解析結果に応じてセンテンスの出力手順、解析状態決定手順、または修正手順を選択的に実行する。特に、条件C1は、前述のように意味解析部153によって得られたセンテンス中の変換された単語のエラー率が第1エラー率の範囲内にあることを示す。条件C2は、エラー率が第2エラー率の範囲内にあることを示す。条件C3は、エラー率が第3のエラー率の範囲内にあることを示す。より具体的には、第1エラー率の範囲は20%未満に設定される。第2エラー率の範囲は、40%を超えるように設定される。第3エラー率の範囲は20%〜40%に設定される。これらの割合は単なる例であり、実際の要件に基づいてユーザーが調整することができ、上記の例に限定されない。
意味解析部153が、エラー率が第1エラー率の範囲内にあると判定し、音声認識部151によって生成されたセンテンスの正しい割合が特定のレベルにあることを示すと、意味解析部153は音声認識部151により生成された文を直接出力する。
エラー率が第2エラー率の範囲内にあり、音声認識部151によって生成されたセンテンスの正しい割合が低すぎて意味解析の修正手順によって改善できないことを示す場合、意味解析部153は、次に、解析状態決定手順を実行する。特に、解析状態決定手順は、(音声認識部151により、アルファベット文字列が多言語の語彙による複数の原語に対応すると決定する)ステップS2の実行回数が事前に設定された数(例えば3)を超えるかどうかを判定することを含む。ここで、事前に設定された数は、音声認識部151によって使用され得る単語分割方法のタイプの数に従って設定されるか、または実際の要件に従って設定され得る。実行回数が事前に設定された回数を超えていない場合、ステップS2を再度実行してアルファベット文字列を取得し、アルファベット文字列が他の原語に対応することを再判定するように音声認識部151に命令し、実行回数に1を加える。そして、実行回数が事前に設定された回数を超えた場合、故障の表示または音声入力要求を出力インターフェース13を介して出力し、故障の表示または音声入力要求は解析状態判定手順の判定結果とみなされる。より具体的には、音声認識部151は、第1の単語分割方法によりステップS2を実行し、第1の単語分割方法とは異なる第2の単語分割方法によりステップS2を再実行することができる。
エラー率が第3エラー率の範囲内にある場合、音声認識部151は修正手順を実行する。図1、図2、および図9を参照されたい。図9は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の修正手順のフローチャートである。修正手順は、図9に示されるステップS71〜S74を含むことができる。ステップS71において、意味解析部153は、言語認識のための音響モデルを使用して紛らわしいセンテンスセットを生成する。紛らわしいセンテンスセットは、複数のセンテンス候補を含む。特に、言語認識音響モデルは、N−best検索アルゴリズムを使用して、センテンスの元の音声入力に対応する1つ以上のセンテンス候補を取得し、1つ以上のセンテンス候補を紛らわしいセンテンスセットに格納できる。たとえば、N−best検索アルゴリズムによって取得されたセンテンス候補の数は5である。ステップS72において、意味解析部153は、多言語の語彙およびセンテンス中の変換された単語に対応する原語に従って、紛らわしいセンテンスセットを補足する。特に、意味解析部153は、原語として役立つアルファベットグループと同一または類似する他の事前に記憶されたアルファベットグループの多言語の語彙を検索し、これらの事前に記憶されたアルファベットグループによって1つ以上のセンテンス候補を形成し、当該1つ以上のセンテンス候補を紛らわしいセンテンスセットに記憶することができる。より具体的には、メモリ2または意味解析部153は、/tsciah5/と/khia24/との間の関係など、複数の紛らわしい音声関係を記憶することができる。この場合、意味解析部153は、原語として機能するアルファベットと同一の他の事前に記憶されたアルファベットグループを検索することに加えて、原語と混乱する関係を有する事前に記憶されたアルファベットグループをさらに検索することができる。
ステップS73において、意味解析部153は、テーマ語彙−意味関係データセットに従って、紛らわしいセンテンスセット内のセンテンス候補に適切なセンテンス候補が存在するかどうかを判定する。特に、適切なセンテンス候補は、単語間の意味関係が特定の率以下のエラー率を有するセンテンス候補を指し、エラー率は、図8の実施形態のステップS41〜ステップS43で説明されるように決定され、繰り返されない。たとえば、特定のレートは20%である。意味解析部153は、紛らわしいセンテンスセットに適切なセンテンス候補があると判定すると、意味解析部153はステップS74を実行する。音声認識によって最初に得られたセンテンスを適切なセンテンス候補に置き換え、修正手順が成功したと判定する。意味解析部153は、紛らわしいセンテンスセットにおいて適切なセンテンス候補が存在しないと判定すると、修正手順が失敗したと判定する。修正手順が失敗すると、意味解析部153は、次に、前述の解析状態決定手順を実行する。
上記を考慮して、本開示で提供される多言語音声認識およびテーマ−意義素解析方法および装置は、特定の音声認識および特定のテーマ意義素解析を組み合わせる。これにより、音声の内容を対応するセンテンスに変換する精度が向上する。