JP2021089300A

JP2021089300A - 多言語音声認識およびテーマ−意義素解析方法および装置

Info

Publication number: JP2021089300A
Application number: JP2019217673A
Authority: JP
Inventors: ウェン−シャンル; Wen-Hsiang Lu; チュン−ユチェン; Chun-Yu Chien; シャオ−チャンシェン; shao-chuan Shen; ウェイ−チェンイエ; Wei-Cheng Yeh
Original assignee: National Cheng Kung University NCKU
Current assignee: National Cheng Kung University NCKU
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2021-06-10
Anticipated expiration: 2039-12-02
Also published as: JP6879521B1

Abstract

【課題】センテンスに変換する精度が向上した多言語音声認識方法を提供する。【解決手段】方法は、音声認識部により実行される、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定し、多言語の語彙および原語に従ってセンテンスを形成するステップと、意味解析部により実行される、センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順またはセンテンスを出力する手順を選択的に実行し、修正手順が成功したとき、修正されたセンテンスを出力し、修正手順が失敗したとき、解析状態決定手順を実行して、判定された結果を選択的に出力する解析状態決定手順を実行するステップを含む。【選択図】図２

Description

本発明は、音声認識方法に関し、特に多言語音声認識方法に関する。

音声認識技術の目標は、人間の音声コンテンツを対応するセンテンスに変換することである。音声認識技術は、音声ダイヤル、音声ナビゲーション、屋内装置制御、書き取りデータの録音などを含む幅広いアプリケーションを含む。グローバリゼーションの発展に伴い、異なる国籍の人々の間の交流がますます頻繁になってきており、対話においてしばしば混合した表現がある。そのため、多言語音声認識装置の需要が増えている。多言語認識の課題に加えて、ユーザーの不正確な発音は、ユーザーの意味に適合しない、装置によって得られる変換結果をもたらす。

本開示の１つ以上の実施形態によれば、多言語音声認識およびテーマ−素意義解析方法は、音声認識部により実行される、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、前記アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定し、前記多言語の語彙および原語に従ってセンテンスを形成するステップを含み、意味解析部により実行される、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順または前記センテンスを出力する手順を選択的に実行し、前記修正手順が成功したとき、前記修正されたセンテンスを出力し、前記修正手順が失敗したとき、前記解析状態決定手順を実行して、判定された結果を選択的に出力する前記解析状態決定手順を実行するステップを含む。

本開示の１つ以上の実施形態によれば、多言語音声認識およびテーマ−素意義解析装置は、音声入力インターフェースと、出力インターフェースと、プロセッサとを含む。音声入力インターフェースは、音声入力信号を受信するように構成される。出力インターフェースは、センテンス、修正されたセンテンス、または判定された結果を出力するように構成される。前記プロセッサは、前記音声入力インターフェースと前記出力インターフェースに接続され、互いに接続された音声認識部および意味解析部を含む。音声認識部は、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、多言語の語彙に従って前記アルファベット文字列が複数の原語に対応すると決定し、前記多言語の語彙と前記原語に従って、センテンスを形成するように構成される。意味解析部は、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスを出力する手順を選択的に実行し、前記修正手順が成功した場合に修正されたセンテンスを出力し、修正手順が失敗した場合に決定結果を選択的に出力するために前記解析状態決定手順を実行するように構成される。

本開示は、説明のためにのみ与えられ、したがって本開示を限定するものではない。以下に与えられる詳細な説明及び添付の図面によってより理解されるであろう。
本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析装置の機能ブロック図である。本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法のフローチャートである。本発明の一実施形態に係る発音アルファベット表の概略図である。本発明の一実施形態に係る多言語の語彙の概略図である。本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分フローチャートである。本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分フローチャートである。本発明の一実施形態に係るテーマ語彙−意味関係データセットの概略図である。本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分フローチャートである。本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の修正手順のフローチャートである。

以下の詳細な説明では、説明を目的として、開示された実施形態の完全な理解を提供するため、多くの具体的な詳細が説明される。しかしながら、これらの特定の詳細無しに１つ以上の実施形態が実施されうることは明らかであろう。他の例では、図面を単純化するために、よく知られている構造と装置が概略的に示される。

図１を参照のこと。図１は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析装置１の機能ブロック図である。多言語音声認識およびテーマ−素意義解析装置１は、音声入力インターフェース１１、出力インターフェース１３、およびプロセッサ１５を備える。音声入力インターフェース１１は、例えば、音声入力信号を受信するためのマイクロホンなどの音声受信機である。音声入力信号は、たとえば、ユーザーによって発せられる音波波形によって形成される。出力インターフェース１３は、音声入力信号に対応するセンテンスを出力するように構成されている。センテンスはプロセッサ１５によって生成されるが、生成方法については後述する。例えば、出力インターフェース１３はディスプレイであり、ディスプレイ画面上にセンテンスを表示する。別の例として、出力インターフェース１３は有線または無線接続インターフェースであり、装置の内部メモリまたはセンテンスを記憶できるリモートメモリに接続できる。または、出力インターフェース１３は、コントローラと接続することができ、コントローラは、音声制御のアプリケーションである１つ以上の被制御装置を制御するための制御命令を生成することができる。

プロセッサ１５は、例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなどである。プロセッサは、音声入力インターフェース１１および出力インターフェース１３に接続され、音声入力信号に対応するセンテンスを生成するために音声入力インターフェース１１によって受信した音声入力信号に対して、音声認識および意味解析を実行することができる。図１に示されるように、プロセッサ１５は、音声認識部１５１および音声認識および意味解析をそれぞれ実行する意味解析部１５３を備えることができる。一実施形態では、音声認識部１５１および意味解析部１５３は、ハードウェアコンポーネント（例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなど）である。別の実施形態では、音声認識部１５１および意味解析部１５３は、単一のハードウェア（例えば、中央処理装置、マイクロコントローラ、プログラマブルロジックコントローラなど）によって実行される２つのファームウェアまたは２つのソフトウェアである。

上述したように、音声認識部１５１は、音声認識を実行するように構成されている。特に、音声認識部１５１は、発音−アルファベット表に従って音声入力インターフェース１１によって受信された音声入力信号に対応するアルファベット文字列を取得し、アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定することができる。多言語の語彙と原語に従ってセンテンスを形成する。音声認識部１５１が音声認識（すなわち、上述の音声入力信号に基づいてセンテンスを形成する手順）を完了してセンテンスを取得した後、意味解析部１５３は、センテンスの意味解析を実行する。特に、意味解析部１５３は、修正手順、解析状態決定手順、または音声認識部１５１によって生成されたセンテンスを直接出力する手順を選択的に実行することができる。意味解析部１５３は、修正手順が成功したと判断すると、修正されたセンテンスを出力する。意味解析部１５３は、修正手順が失敗したと判断すると、解析状態決定手順を実行する。修正手順および解析状態決定手順の実行内容については後述する。

図１に示す実施形態では、発音アルファベット表、多言語の語彙、および上記のようにテーマ語彙−意味関係データセットは、メモリ２に記憶することができる。プロセッサ１５は、音声認識および意味解析を実行するために上記データを取得するためにメモリ２と接続され得る。図１に示すように、メモリ２は、多言語全集２１、多言語の語彙辞書２３、第１のテーマ語彙−意味関係データベース２５、および第２のテーマ語彙−意味関係データベース２７を含むことができる。多言語全集２１は発音アルファベット表を記憶する。多言語の語彙辞書２３は、多言語の語彙を貯蔵する。第１のテーマ語彙−意味関係データベース２５は、中国語のテーマ語彙−意味関係データセットなど、第１の言語のテーマ語彙−意味関係データセットを格納する。第２のテーマ語彙−意味関係データベース２７は、英語のテーマ語彙−意味関係データセットなど、第２の言語でのテーマ語彙−意味関係データセットを格納する。図１は、メモリ２が２つのテーマ語彙−意味関係データベースを有することを例示的に示していることに留意すべきである。しかし、他の実施形態では、メモリ２は、上記の２つのテーマ語彙−意味関係データベースのうちの１つのみを有するか、または様々な言語でそれぞれより多くのテーマ語彙−意味関係データベースを有することができる。

上述の多言語全集２１、多言語の語彙辞書２３、第１のテーマ語彙−意味関係データベース２５および第２のテーマ語彙−意味関係データベース２７は、１つ以上の不揮発性記憶媒体（フラッシュメモリ、読み取り専用メモリ、磁気メモリなど）によって形成することができる。例えば、多言語全集２１、多言語の語彙辞書２３、第１のテーマ語彙−意味関係データベース２５、および第２のテーマ語彙−意味関係データベース２７のそれぞれは、独立して配置される不揮発性記憶媒体とすることができる。別の例として、多言語全集２１、多言語の語彙辞書２３、第１のテーマ語彙−意味関係データベース２５および第２のテーマ語彙−意味関係データベース２７は、コンピュータプログラムによって定義された同じ不揮発性記憶媒体内の異なる磁性領域または複数の記憶領域であり得る。本発明は、メモリ２を形成する不揮発性記憶媒体の数を制限せず、メモリ２のどの不揮発性記憶媒体が発音アルファベット表、多言語の語彙、およびテーマ語彙−意味関係データセットを記憶することに限定しない。図１に示す実施形態では、メモリ２は、多言語音声認識およびテーマ−素意義解析装置１から離隔し、プロセッサ１５との通信接続を有するリモートメモリ（例えばクラウドハードディスク）であり得る。別の実施形態では、メモリ２は、多言語音声認識およびテーマ−素意義解析装置１に含めることができる。すなわち、多言語音声認識およびテーマ−素意義解析装置１は、メモリ２をさらに含むことができ、メモリ２はプロセッサ１５と電気的に接続することができる。

図１および図２を参照されたい。図２は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法のフローチャートである。図２に示されるように多言語音声認識およびテーマ−素意義解析方法は、図１に示されるように多言語音声認識およびテーマ−素意義解析装置１に適用することができる。以下では、多言語音声認識およびテーマ−素意義解析装置１によって実行された多言語音声認識およびテーマ−素意義解析方法の複数の実施について説明する。しかしながら、本発明の多言語音声認識およびテーマ−素意義解析方法は、図１に示す装置構造によって実施されることに限定されない。

ステップＳ１において、多言語音声認識およびテーマ−素意義解析装置１は、音声認識部１５１により、発音アルファベット表に従って、音声入力信号に対応するアルファベット文字列を取得する。ステップＳ２において、多言語音声認識・テーマ−素意義解析装置１は、音声認識部１５１により、多言語の語彙に従って、アルファベット文字列が複数の原語に対応すると決定する。ステップＳ３において、多言語音声認識およびテーマ−素意義解析装置１は、音声認識部１５１により、多言語の語彙と複数の原語に応じたセンテンスを形成する。ステップＳ４において、多言語音声認識およびテーマ−素意義解析装置１は、意味解析部１５３により、修正されたセンテンスを生成する修正手順、解析状態判定手順、またはセンテンスおよびセンテンスとテーマ語彙−意味関係のデータセットに従ってセンテンスを出力する手順を選択的に実行する。テーマ語彙−意味関係データセットに従って意味解析部１５３によって生成された解析結果が条件Ｃ１に一致する場合、ステップＳ５：センテンスを出力することが実行される。解析結果が条件Ｃ２に一致する場合、ステップＳ６：解析状態決定手順の実行が実行される。解析結果が条件Ｃ３に一致する場合、ステップＳ７：修正手順の実行が実行される。条件Ｃ１〜Ｃ３の詳細については後述する。修正手順が実行されるステップＳ７の後、ステップＳ８において、多言語音声認識およびテーマ−素意義解析装置１は、意味解析部１５３によって修正手順が成功したかどうかを判定する。修正手順が成功すると、ステップＳ９で、多言語音声認識およびテーマ−素意義解析装置１の意味解析部１５３は、修正されたセンテンスを出力インターフェース１３に出力し、出力インターフェースは、修正されたセンテンスを出力する（例えば、表示画面上の修正されたセンテンスを表示する）。修正手順が失敗した場合、多言語音声認識およびテーマ−素意義解析装置１は、ステップＳ６を実行して、解析状態決定手順を実行し、意味解析部１５３による解析状態決定手順の決定結果を選択的に出力する。修正手順および解析状態決定手順の内容については後述する。

さらにステップＳ１を説明する。音声認識部１５１は、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得することにより、音声認識部１５１は、音声入力インターフェース１１によって受信された音声が複数の発音を含むと判定し、これらの発音を発音アルファベット表と比較して、音声に対応するアルファベット文字列を取得することができる。より具体的には、発音アルファベット表は、複数の事前に記憶された発音とそれに対応するアルファベットを含むことができる。たとえば、アルファベットは国際音声アルファベット（ＩＰＡ）、台湾ローマ字表記システム（ＴＬ）、漢語ピン音または他の種類のアルファベットに属する。本発明の一実施形態に係る発音アルファベット表の概略図である図３を参照されたい。上記の発音アルファベット表は、図３の形式にすることができる。図３は、主にＩＰＡを使用して、多言語音声認識に適用され、発音に対応するＴＬを配置する。特に、図３に示されている発音アルファベットテーブルでは、「［］」に記載されているアルファベットはＩＰＡに属する。「［］」に続くアルファベットは、共通化された台湾ローマ字化（共通ＴＬ）に属する。太字の共通ＴＬアルファベットは、元のＴＬには含まれない。斜体の共通ＴＬアルファベットは元のＴＬに含まれるが、対応する発音を示すためには使用されない。「（なし）」は、対応する発音が共通ＴＬで示されていないことを示す。「／」で区切られたアルファベットは「無声／有声」を意味する。つまり、「／」の左側のアルファベットは無声で、右側は有声である。「／」で区切られていないアルファベットは無声である。「Ｘ」とマークされたフィールドは発音できないと判断される。

より具体的には、図３に示す発音アルファベット表は、台湾ローマ字表記システムに含まれるアルファベットに加えて、少なくとも１つの特定のアルファベットグループＡ１を提供し、特定のアルファベットグループＡ１は、後部歯茎音または反転音に対応する複数のアルファベットを含む。より具体的には、特定のアルファベットグループＡ１は、後部歯茎音または反転音の無気破裂音に対応するアルファベット、後部歯茎音または反転音の有気破擦音に対応するアルファベット、後部歯茎音または反転音の摩擦音に対応するアルファベットおよび、後部歯茎音または反転音の接近音に対応するアルファベットを含む。より具体的には、上記の特定のアルファベットグループＡ１は、標準中国語の発音と客家語の発音に密接に関連している。前述の特定のアルファベットグループＡ１を既存の台湾語ローマ字体系に追加することにより、本発明で提供される多言語音声認識およびテーマ−素意義解析方法は、標準中国語、台湾語、または客家語の発音をより正確に認識する。したがって音声認識手順の精度を向上させることができる。

図２のステップＳ２をさらに説明する。音声認識部１５１により、多言語の語彙に従ってアルファベット文字列が複数の原語に対応すると判定する。図１、図２、図４および図５を参照されたい。図４は、本発明の一実施形態に係る多言語の語彙の概略図である。図５は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分的なフローチャートである。本発明で提供される多言語の語彙は、それぞれが特定の言語の少なくとも１つの単語の意味および特定の言語の少なくとも１つのアルファベットグループを含む複数の意味グループを含むことができる。図４に示すように、多言語の語彙は意味グループＧ１〜Ｇ４を含むことができ、意味グループＧ１、Ｇ２、Ｇ３、およびＧ４のそれぞれは、音声Ｐの一部、第１言語の単語の意味Ｍ１および第２言語の単語の意味Ｍ２に対応するデータを含むことができる。意味グループＧ１、Ｇ２、Ｇ３、およびＧ４のそれぞれは、複数の言語Ｌ１〜Ｌ５にそれぞれ属するアルファベットグループ（以下「事前に記憶されたアルファベットグループ」）を含む。より具体的には、図４に示される事前に記憶されたアルファベットグループは、図３に示されるアルファベットに基づいて形成される。本実施形態では、第１言語の単語の意味Ｍ１は中国標準語の単語の意味を示し、第２言語の単語の意味Ｍ２は英語における単語の意味を示す。言語Ｌ１〜Ｌ５はそれぞれ標準中国語、台湾語、客家語、英語、日本語である。たとえば、事前に記憶されているアルファベットグループ［Ｇ１、Ｌ１］、［Ｇ１、Ｌ２］、［Ｇ１、Ｌ３］、［Ｇ１、Ｌ４］、および［Ｇ１、Ｌ５］は、それぞれ「Ｉ」を意味する単語の標準中国語の発音、台湾語の発音、客家語の発音、英語の発音および日本語の発明を示す。図４は、４つの意味グループが多言語の語彙に含まれ、各意味グループは２つの言語の単語の意味と５つの言語のアルファベットのグループを含むことを示すことに注意されたい。しかし、これらの数は単なる例であり、本発明はこれらに限定されない。

図２に示されるステップＳ２は、図５に示されるステップＳ２１〜Ｓ２９を含むことができる。図５の実施形態では、前述のステップＳ１で得られたアルファベット文字列がＭアルファベットによって形成され、Ｍは自然数であると仮定する。ステップＳ２１において、音声認識部１５１は、まず、認識対象のアルファベットグループの先頭位置の値を１に設定し、認識対象のアルファベットグループの終了位置の値をＭに設定することができる。他の単語では、音声認識の開始時に、音声認識部１５１は、アルファベット文字列の１番目からＭ番目のアルファベットを認識対象のアルファベットグループに設定することができる。次に、ステップＳ２２において、音声認識部１５１は、認識されるアルファベットグループと一致する多言語の語彙内の事前に記憶されたアルファベットグループの数を決定する。特に、音声認識部１５１は、認識されるアルファベットグループと同一の事前に記憶されたアルファベットグループについて多言語の語彙を検索することができる。音声認識部１５１は、一致している事前に記憶されたアルファベットグループの数がゼロであると判定すると、音声認識部１５１は、ステップＳ２３：終了位置の値から１を減算することを実行し、一方、認識されるアルファベットグループは１番目〜（Ｍ−１）番目のアルファベットで構成される。そのとき、音声認識部１５１は、ステップＳ２２を再度実行する。音声認識部１５１は、認識されるアルファベットグループと一致する多言語の語彙における１つ以上の事前に記憶されたアルファベットグループを見つけるまで、ステップＳ２２およびＳ２３を連続的に実行する。

音声認識部１５１は、認識対象のアルファベットグループと一致する多言語の語彙に一つの事前に記憶されたアルファベットグループがあると判定した場合、音声認識部１５１は事前に記憶されたアルファベットグループを原語とみなして、終了位置の値を取得する、ステップＳ２４を実行する。一方、音声認識部１５１は、認識対象のアルファベットグループと一致する多言語の語彙に複数の事前に記憶されたアルファベットグループがあると判断した場合、事前に記憶されたアルファベットグループを保留中の単語セットに記憶して、終了位置の値を取得する、ステップＳ２５を実行する。特に、音声認識部１５１は、この保留中の単語セットに対応する先頭位置および終了位置の値をさらに記録することができる。保留中の単語セットは、プロセッサ１５に含まれるレジスタまたはメモリ２に格納されるか、プロセッサ１５に接続することができるが、これは本発明では限定されない。

ステップＳ２６において、音声認識部１５１は、終了位置の値がＭに等しいか否かを判定する。音声認識部１５１が、終了位置の値がＭに等しくないと判定した場合、音声認識部１５１アルファベット文字列がまだ決定されていないどの原語を含むかを示し、音声認識部１５１は、ステップＳ２７：終了位置の値と先頭位置の値の合計を、先頭位置の新しい値に設定し、終了位置の値をＭに設定することを実行する。それから、ステップＳ２２を再実行する。例えば、前のステップＳ２４またはＳ２５で音声認識部１５１によって取得された終了位置の値がＮである場合、音声認識部１５１は、多言語の語彙がアルファベット文字列の１番目からＮ番目のアルファベットと一致する１つ以上の事前に記憶されたアルファベットグループを含むと判定したことを示す。音声認識部１５１は、アルファベット文字列の第Ｎ番目のアルファベットまでを、アルファベット文字列の第（１＋Ｎ）番目からＭ番目のアルファベットに一致する事前に記憶されたアルファベットグループを検索する。

一方、音声認識部１５１は、終了位置の値がＭに等しいと判定すると、音声認識部１５１がアルファベット文字列に含まれる原語を決定したことを示す。次に、音声認識部１５１はステップＳ２８におけるレジスタまたはメモリ２に保留中のワードセットが存在するかどうかを判定する。音声認識部１５１が保留中の単語セットがあると判定すると、今のところ判定されるべきアルファベット文字列における原語があることを示す。音声認識部１５１が複数の保留中の単語セットがあると判定すると、今のところ判定されるべきアルファベット文字列内に複数の原語があることを示す。これらの２つの場合、音声認識部１５１はステップＳ２９を実行する。各保留中の単語セットについて、アルファベット文字列で決定された原語（以下「決定された原語」と呼ぶ）の言語分布に従って、原語となる保留中の単語セットに事前に記憶されているアルファベットグループの一つを選択する。特に、保留中の単語セットが第１言語の事前に記憶されたアルファベットグループおよび第２言語の事前に記憶されたアルファベットグループを記憶し、決定された原語および第１言語に属する割合が高い場合、音声認識部１５１はセンテンスを形成するための原語の１つとなる保留中の単語セットから第１言語における事前に記憶されたアルファベットグループを選択することができる。決定された原語の言語分布が均一である場合、音声認識部１５１は、最初に、原語である保留中の単語セットから事前に記憶されたアルファベットグループのいずれか１つを選択し、後で修正手順を実行することができる。

音声認識部１５１が、原語となるように各保留中の単語セットから事前に記憶されたアルファベットグループの選択を完了した後、アルファベット文字列に対応するすべての原語が取得されてもよい。また、音声認識部１５１によって実行される判定ステップＳ２７の結果が否定（すなわち「Ｎｏ」）の場合、アルファベット文字列に対応するすべての原語が取得されたことを示す。上述のステップにより、音声認識部１５１は、アルファベット文字列が単一の原語であると決定するか、アルファベット文字列を複数の原語に分割する（すなわち、アルファベット文字列で単語分割を実行する）ことができる。認識対象のアルファベットグループの終了位置の値がＭに設定されるステップＳ２１およびステップＳ２７により、音声認識部１５１は、前方の最長一致原則に基づく単語分割を実行することができる。さらに、音声認識部１５１は、後方最長一部原則、ＮＬＴＫアルゴリズム、ジーバアルゴリズムなどに基づいて単語分割を実行することができる。

図２のステップＳ３をさらに説明する。音声認識部１５１により、多言語の語彙および原語に従ってセンテンスを形成する。図１、図２、図４および図６を参照されたい。ここで、図６は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分的なフローチャートである。ステップＳ３１において、音声認識部１５１は、決定された原語の言語ファミリー分布に従って統一された言語を選択することができる。ステップＳ３２において、音声認識部１５１は、多言語の語彙に従って、決定された原語に対応する変換された単語を取得し、変換された単語によってセンテンスを形成する。特に、いくつかの特定の言語が単一の言語ファミリーに属する規則は、音声認識部１５１に事前に設定できる。図４に示す多言語の語彙を例に取ると、音声認識部１５１は、言語Ｌ１〜Ｌ３（標準中国語、台湾語、客家語）は、中国語のファミリーに属すると認識するように事前に設定できる。前のステップで決定された原語が／ｕｏ２１４／／ｋｈｉａ２４／／’ｂａｉｓｉｒｋｈｌ／である場合、／ｕｏ２１４／は中国語のファミリーに属する言語Ｌ１に対応し、／ｋｈｉａ２４／は同じく中国語のファミリーに対応する言語Ｌ２に属するが、／’ｂａｉｓｉｒｋｈｌ／は英語のファミリーに属する言語Ｌ４に対応し、音声認識部１５１は中国語のファミリーに属する原語の割合が高いと判断し、音声認識部１５１は統一された言語である中国語を選択する。次いで、音声認識部１５１は、原語／ｕｏ２１４／、／ｋｈｉａ２４／および／’ｂａｉｓｉｒｋｈｌ／にそれぞれ対応する単語の意味「Ｉ」、「ｒｉｄｅ」および「ｂｉｃｙｃｌｅ」を取得し、これらの単語の意味を変換された単語とみなし、これらの変換された単語によって「Ｉｒｉｄｅｂｉｃｙｃｌｅ」という文を形成する。

図２の前述のステップＳ１〜Ｓ３により、多言語音声認識およびテーマ−素意義解析装置１の音声認識部１５１は、最初に音声入力に対応するセンテンスを取得することができる。次に、意味解析部１５３は、修正手順を選択的に実行することができる。図２のステップＳ４をさらに説明する。意味解析部１５３により、センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスの出力手順を選択的に実行する。図１、図２、図７、および図８を参照のこと。図７は、本発明の一実施形態に係るテーマ語彙−意味関係データセットの概略図であり、図８は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の部分的なフローチャートである。図７に示すように、テーマ語彙−意味関係のデータセットは、教育テーマ、医療テーマ、ビジネステーマなどの複数のテーマを含めることができる。これらの各テーマには、人、物事、場所、オブジェクトのカテゴリが含まれ、各カテゴリには事前に記憶された複数の単語が含まれる。例としての教育テーマの場合、人のカテゴリーには、「教師」、「生徒」、「校長」などの事前に記憶された単語を含めることができる。物事のカテゴリには、「教える」、「学習する」などの事前に記憶された単語を含めることができる。場所のカテゴリには、「教室」、「学校」などの事前に記憶された単語を含めることができる。オブジェクトのカテゴリには、「教科書」、「文房具」などを含めることができる。テーマ語彙−意味関係のデータセットは、これらの事前に記憶された単語間の関係を含み、異なるカテゴリの事前に記憶された単語間の関係などを含むことができ、これらの関係は、図７において点線によって示される。テーマ語彙−意味関係データセットは図７として例示的に示されているが、他の実施形態では、テーマ語彙−意味関係データセットは他の種類のテーマを含むことができ、これらのテーマにはそれぞれ、１つ以上の事前に記憶された単語を含むさまざまなカテゴリを含めることができることに留意されたい。

図２のステップＳ４は、図８に示すステップＳ４１〜Ｓ４３を含むことができる。ステップＳ４１〜Ｓ４３により、意味解析部１５３は、センテンスおよびテーマ語彙−意味関係データセットに従ってセンテンス中の変換された単語のエラー率を判定することができる。センテンスは、以前の音声認識によって取得される。ステップＳ４１において、意味解析部１５３は、センテンスが１つ以上のサブセンテンスを有すると判定することができる。特に、多言語の語彙に従って音声認識１５１によって以前に取得されたセンテンス中の変換された単語は、それぞれ音声の一部を有する。意味解析部１５３は、変換されたすべての単語の音声の一部に基づいて、センテンスが１つ以上のテーマを含むことを決定することができる。一般に、センテンスの構成は、多くの場合、動詞に主語または／および受け手が加わる。したがって、意味解析部１５３は、センテンス中の動詞の数に基づいて、センテンスが１つ以上のサブセンテンスを有すると判定することができる。例えば、意味解析部１５３は、動詞及び動詞の前または後に名詞または代名詞を含むように各サブセンテンスを設定することができる。別の実施形態では、意味解析部１５３は、まず、センテンス中の変換された単語の数に応じて、音声の一部に基づいてセンテンスをサブセンテンスに分割するかどうかを決定することができる。センテンス中の変換された単語の数が事前設定された数（例えば、５）未満の場合、そのセンテンスはサブセンテンスであると判定される。さらに別の実施形態では、意味解析部１５３は、センテンスがサブセンテンスによって形成されていることを決定し、次いでステップＳ４２を実行することができる。つまり、上記の音声の部分的な解析は実行されない。上記のさまざまなルールは、装置の内部メモリまたはリモートメモリに事前に記憶し、意味解析部によって取得および実行できる。

次に、ステップＳ４２において、意味解析部１５３は、サブセンテンスごとに、テーマの語彙−意味関係のデータセットに従って同じテーマに属するサブセンテンスにおける変換された単語の割合（以下、「サブセンテンスの均一テーマ割合」と呼ぶ）を決定する。例えば、サブセンテンスに５つの変換された単語があり、これらの変換されたワードのうちの４つが教育テーマに属する場合、意味解析部１５３は、サブセンテンスの均一なテーマ割合が８０％であると判定する。ステップＳ４３において、意味解析部１５３は、各サブセンテンスの均一なテーマの割合に従ってエラー率を取得する。例えば、意味解析部１５３は、すべてのサブセンテンスの均一なテーマの割合の平均を計算し、この平均を１００％から差し引いてエラー率を取得することができる。

前述のように、メモリ２は、異なる言語の複数のテーマ語彙−意味関係データセット（例えば、中国語テーマ語彙−意味関係データセット、英語テーマ語彙−意味関係データセットなど）を格納することができる。本実施形態において、図２のＳ４は、これらの事前に記憶されたテーマ語彙−意味関係データセットの１つを以下の解析の基礎として選択するステップを含むことができる。具体的には、センテンスの統一された言語に従って、意味解析部１５３は、統一された言語に属するテーマ語彙−意味関係データセットを選択する。

図２および前述の実施形態に示すように、意味解析部１５３は、解析結果が条件Ｃ１、条件Ｃ２または条件Ｃ３に一致するかどうかを判定し、解析結果に応じてセンテンスの出力手順、解析状態決定手順、または修正手順を選択的に実行する。特に、条件Ｃ１は、前述のように意味解析部１５３によって得られたセンテンス中の変換された単語のエラー率が第１エラー率の範囲内にあることを示す。条件Ｃ２は、エラー率が第２エラー率の範囲内にあることを示す。条件Ｃ３は、エラー率が第３のエラー率の範囲内にあることを示す。より具体的には、第１エラー率の範囲は２０％未満に設定される。第２エラー率の範囲は、４０％を超えるように設定される。第３エラー率の範囲は２０％〜４０％に設定される。これらの割合は単なる例であり、実際の要件に基づいてユーザーが調整することができ、上記の例に限定されない。

意味解析部１５３が、エラー率が第１エラー率の範囲内にあると判定し、音声認識部１５１によって生成されたセンテンスの正しい割合が特定のレベルにあることを示すと、意味解析部１５３は音声認識部１５１により生成された文を直接出力する。

エラー率が第２エラー率の範囲内にあり、音声認識部１５１によって生成されたセンテンスの正しい割合が低すぎて意味解析の修正手順によって改善できないことを示す場合、意味解析部１５３は、次に、解析状態決定手順を実行する。特に、解析状態決定手順は、（音声認識部１５１により、アルファベット文字列が多言語の語彙による複数の原語に対応すると決定する）ステップＳ２の実行回数が事前に設定された数（例えば３）を超えるかどうかを判定することを含む。ここで、事前に設定された数は、音声認識部１５１によって使用され得る単語分割方法のタイプの数に従って設定されるか、または実際の要件に従って設定され得る。実行回数が事前に設定された回数を超えていない場合、ステップＳ２を再度実行してアルファベット文字列を取得し、アルファベット文字列が他の原語に対応することを再判定するように音声認識部１５１に命令し、実行回数に１を加える。そして、実行回数が事前に設定された回数を超えた場合、故障の表示または音声入力要求を出力インターフェース１３を介して出力し、故障の表示または音声入力要求は解析状態判定手順の判定結果とみなされる。より具体的には、音声認識部１５１は、第１の単語分割方法によりステップＳ２を実行し、第１の単語分割方法とは異なる第２の単語分割方法によりステップＳ２を再実行することができる。

エラー率が第３エラー率の範囲内にある場合、音声認識部１５１は修正手順を実行する。図１、図２、および図９を参照されたい。図９は、本発明の一実施形態に係る多言語音声認識およびテーマ−素意義解析方法の修正手順のフローチャートである。修正手順は、図９に示されるステップＳ７１〜Ｓ７４を含むことができる。ステップＳ７１において、意味解析部１５３は、言語認識のための音響モデルを使用して紛らわしいセンテンスセットを生成する。紛らわしいセンテンスセットは、複数のセンテンス候補を含む。特に、言語認識音響モデルは、Ｎ−ｂｅｓｔ検索アルゴリズムを使用して、センテンスの元の音声入力に対応する１つ以上のセンテンス候補を取得し、１つ以上のセンテンス候補を紛らわしいセンテンスセットに格納できる。たとえば、Ｎ−ｂｅｓｔ検索アルゴリズムによって取得されたセンテンス候補の数は５である。ステップＳ７２において、意味解析部１５３は、多言語の語彙およびセンテンス中の変換された単語に対応する原語に従って、紛らわしいセンテンスセットを補足する。特に、意味解析部１５３は、原語として役立つアルファベットグループと同一または類似する他の事前に記憶されたアルファベットグループの多言語の語彙を検索し、これらの事前に記憶されたアルファベットグループによって１つ以上のセンテンス候補を形成し、当該１つ以上のセンテンス候補を紛らわしいセンテンスセットに記憶することができる。より具体的には、メモリ２または意味解析部１５３は、／ｔｓｃｉａｈ５／と／ｋｈｉａ２４／との間の関係など、複数の紛らわしい音声関係を記憶することができる。この場合、意味解析部１５３は、原語として機能するアルファベットと同一の他の事前に記憶されたアルファベットグループを検索することに加えて、原語と混乱する関係を有する事前に記憶されたアルファベットグループをさらに検索することができる。

ステップＳ７３において、意味解析部１５３は、テーマ語彙−意味関係データセットに従って、紛らわしいセンテンスセット内のセンテンス候補に適切なセンテンス候補が存在するかどうかを判定する。特に、適切なセンテンス候補は、単語間の意味関係が特定の率以下のエラー率を有するセンテンス候補を指し、エラー率は、図８の実施形態のステップＳ４１〜ステップＳ４３で説明されるように決定され、繰り返されない。たとえば、特定のレートは２０％である。意味解析部１５３は、紛らわしいセンテンスセットに適切なセンテンス候補があると判定すると、意味解析部１５３はステップＳ７４を実行する。音声認識によって最初に得られたセンテンスを適切なセンテンス候補に置き換え、修正手順が成功したと判定する。意味解析部１５３は、紛らわしいセンテンスセットにおいて適切なセンテンス候補が存在しないと判定すると、修正手順が失敗したと判定する。修正手順が失敗すると、意味解析部１５３は、次に、前述の解析状態決定手順を実行する。

上記を考慮して、本開示で提供される多言語音声認識およびテーマ−素意義解析方法および装置は、特定の音声認識および特定のテーマ素意義解析を組み合わせる。これにより、音声の内容を対応するセンテンスに変換する精度が向上する。

本開示の１つ以上の実施形態によれば、多言語音声認識およびテーマ−意義素解析方法は、音声認識部により実行される、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、前記アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定し、前記多言語の語彙および原語に従ってセンテンスを形成するステップを含み、意味解析部により実行される、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順または前記センテンスを出力する手順を選択的に実行し、前記修正手順が成功したとき、前記修正されたセンテンスを出力し、前記修正手順が失敗したとき、前記解析状態決定手順を実行して、判定された結果を選択的に出力する前記解析状態決定手順を実行するステップを含む。

本開示の１つ以上の実施形態によれば、多言語音声認識およびテーマ−意義素解析装置は、音声入力インターフェースと、出力インターフェースと、プロセッサとを含む。音声入力インターフェースは、音声入力信号を受信するように構成される。出力インターフェースは、センテンス、修正されたセンテンス、または判定された結果を出力するように構成される。前記プロセッサは、前記音声入力インターフェースと前記出力インターフェースに接続され、互いに接続された音声認識部および意味解析部を含む。音声認識部は、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、多言語の語彙に従って前記アルファベット文字列が複数の原語に対応すると決定し、前記多言語の語彙と前記原語に従って、センテンスを形成するように構成される。意味解析部は、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスを出力する手順を選択的に実行し、前記修正手順が成功した場合に修正されたセンテンスを出力し、修正手順が失敗した場合に決定結果を選択的に出力するために前記解析状態決定手順を実行するように構成される。

本開示は、説明のためにのみ与えられ、したがって本開示を限定するものではない。以下に与えられる詳細な説明及び添付の図面によってより理解されるであろう。
本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析装置の機能ブロック図である。本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法のフローチャートである。本発明の一実施形態に係る発音アルファベット表の概略図である。本発明の一実施形態に係る多言語の語彙の概略図である。本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分フローチャートである。本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分フローチャートである。本発明の一実施形態に係るテーマ語彙−意味関係データセットの概略図である。本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分フローチャートである。本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の修正手順のフローチャートである。

図１を参照のこと。図１は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析装置１の機能ブロック図である。多言語音声認識およびテーマ−意義素解析装置１は、音声入力インターフェース１１、出力インターフェース１３、およびプロセッサ１５を備える。音声入力インターフェース１１は、例えば、音声入力信号を受信するためのマイクロホンなどの音声受信機である。音声入力信号は、たとえば、ユーザーによって発せられる音波波形によって形成される。出力インターフェース１３は、音声入力信号に対応するセンテンスを出力するように構成されている。センテンスはプロセッサ１５によって生成されるが、生成方法については後述する。例えば、出力インターフェース１３はディスプレイであり、ディスプレイ画面上にセンテンスを表示する。別の例として、出力インターフェース１３は有線または無線接続インターフェースであり、装置の内部メモリまたはセンテンスを記憶できるリモートメモリに接続できる。または、出力インターフェース１３は、コントローラと接続することができ、コントローラは、音声制御のアプリケーションである１つ以上の被制御装置を制御するための制御命令を生成することができる。

上述の多言語全集２１、多言語の語彙辞書２３、第１のテーマ語彙−意味関係データベース２５および第２のテーマ語彙−意味関係データベース２７は、１つ以上の不揮発性記憶媒体（フラッシュメモリ、読み取り専用メモリ、磁気メモリなど）によって形成することができる。例えば、多言語全集２１、多言語の語彙辞書２３、第１のテーマ語彙−意味関係データベース２５、および第２のテーマ語彙−意味関係データベース２７のそれぞれは、独立して配置される不揮発性記憶媒体とすることができる。別の例として、多言語全集２１、多言語の語彙辞書２３、第１のテーマ語彙−意味関係データベース２５および第２のテーマ語彙−意味関係データベース２７は、コンピュータプログラムによって定義された同じ不揮発性記憶媒体内の異なる磁性領域または複数の記憶領域であり得る。本発明は、メモリ２を形成する不揮発性記憶媒体の数を制限せず、メモリ２のどの不揮発性記憶媒体が発音アルファベット表、多言語の語彙、およびテーマ語彙−意味関係データセットを記憶することに限定しない。図１に示す実施形態では、メモリ２は、多言語音声認識およびテーマ−意義素解析装置１から離隔し、プロセッサ１５との通信接続を有するリモートメモリ（例えばクラウドハードディスク）であり得る。別の実施形態では、メモリ２は、多言語音声認識およびテーマ−意義素解析装置１に含めることができる。すなわち、多言語音声認識およびテーマ−意義素解析装置１は、メモリ２をさらに含むことができ、メモリ２はプロセッサ１５と電気的に接続することができる。

図１および図２を参照されたい。図２は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法のフローチャートである。図２に示されるように多言語音声認識およびテーマ−意義素解析方法は、図１に示されるように多言語音声認識およびテーマ−意義素解析装置１に適用することができる。以下では、多言語音声認識およびテーマ−意義素解析装置１によって実行された多言語音声認識およびテーマ−意義素解析方法の複数の実施について説明する。しかしながら、本発明の多言語音声認識およびテーマ−意義素解析方法は、図１に示す装置構造によって実施されることに限定されない。

ステップＳ１において、多言語音声認識およびテーマ−意義素解析装置１は、音声認識部１５１により、発音アルファベット表に従って、音声入力信号に対応するアルファベット文字列を取得する。ステップＳ２において、多言語音声認識・テーマ−意義素解析装置１は、音声認識部１５１により、多言語の語彙に従って、アルファベット文字列が複数の原語に対応すると決定する。ステップＳ３において、多言語音声認識およびテーマ−意義素解析装置１は、音声認識部１５１により、多言語の語彙と複数の原語に応じたセンテンスを形成する。ステップＳ４において、多言語音声認識およびテーマ−意義素解析装置１は、意味解析部１５３により、修正されたセンテンスを生成する修正手順、解析状態判定手順、またはセンテンスおよびセンテンスとテーマ語彙−意味関係のデータセットに従ってセンテンスを出力する手順を選択的に実行する。テーマ語彙−意味関係データセットに従って意味解析部１５３によって生成された解析結果が条件Ｃ１に一致する場合、ステップＳ５：センテンスを出力することが実行される。解析結果が条件Ｃ２に一致する場合、ステップＳ６：解析状態決定手順の実行が実行される。解析結果が条件Ｃ３に一致する場合、ステップＳ７：修正手順の実行が実行される。条件Ｃ１〜Ｃ３の詳細については後述する。修正手順が実行されるステップＳ７の後、ステップＳ８において、多言語音声認識およびテーマ−意義素解析装置１は、意味解析部１５３によって修正手順が成功したかどうかを判定する。修正手順が成功すると、ステップＳ９で、多言語音声認識およびテーマ−意義素解析装置１の意味解析部１５３は、修正されたセンテンスを出力インターフェース１３に出力し、出力インターフェースは、修正されたセンテンスを出力する（例えば、表示画面上の修正されたセンテンスを表示する）。修正手順が失敗した場合、多言語音声認識およびテーマ−意義素解析装置１は、ステップＳ６を実行して、解析状態決定手順を実行し、意味解析部１５３による解析状態決定手順の決定結果を選択的に出力する。修正手順および解析状態決定手順の内容については後述する。

より具体的には、図３に示す発音アルファベット表は、台湾ローマ字表記システムに含まれるアルファベットに加えて、少なくとも１つの特定のアルファベットグループＡ１を提供し、特定のアルファベットグループＡ１は、後部歯茎音または反転音に対応する複数のアルファベットを含む。より具体的には、特定のアルファベットグループＡ１は、後部歯茎音または反転音の無気破裂音に対応するアルファベット、後部歯茎音または反転音の有気破擦音に対応するアルファベット、後部歯茎音または反転音の摩擦音に対応するアルファベットおよび、後部歯茎音または反転音の接近音に対応するアルファベットを含む。より具体的には、上記の特定のアルファベットグループＡ１は、標準中国語の発音と客家語の発音に密接に関連している。前述の特定のアルファベットグループＡ１を既存の台湾語ローマ字体系に追加することにより、本発明で提供される多言語音声認識およびテーマ−意義素解析方法は、標準中国語、台湾語、または客家語の発音をより正確に認識する。したがって音声認識手順の精度を向上させることができる。

図２のステップＳ２をさらに説明する。音声認識部１５１により、多言語の語彙に従ってアルファベット文字列が複数の原語に対応すると判定する。図１、図２、図４および図５を参照されたい。図４は、本発明の一実施形態に係る多言語の語彙の概略図である。図５は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分的なフローチャートである。本発明で提供される多言語の語彙は、それぞれが特定の言語の少なくとも１つの単語の意味および特定の言語の少なくとも１つのアルファベットグループを含む複数の意味グループを含むことができる。図４に示すように、多言語の語彙は意味グループＧ１〜Ｇ４を含むことができ、意味グループＧ１、Ｇ２、Ｇ３、およびＧ４のそれぞれは、音声Ｐの一部、第１言語の単語の意味Ｍ１および第２言語の単語の意味Ｍ２に対応するデータを含むことができる。意味グループＧ１、Ｇ２、Ｇ３、およびＧ４のそれぞれは、複数の言語Ｌ１〜Ｌ５にそれぞれ属するアルファベットグループ（以下「事前に記憶されたアルファベットグループ」）を含む。より具体的には、図４に示される事前に記憶されたアルファベットグループは、図３に示されるアルファベットに基づいて形成される。本実施形態では、第１言語の単語の意味Ｍ１は中国標準語の単語の意味を示し、第２言語の単語の意味Ｍ２は英語における単語の意味を示す。言語Ｌ１〜Ｌ５はそれぞれ標準中国語、台湾語、客家語、英語、日本語である。たとえば、事前に記憶されているアルファベットグループ［Ｇ１、Ｌ１］、［Ｇ１、Ｌ２］、［Ｇ１、Ｌ３］、［Ｇ１、Ｌ４］、および［Ｇ１、Ｌ５］は、それぞれ「Ｉ」を意味する単語の標準中国語の発音、台湾語の発音、客家語の発音、英語の発音および日本語の発明を示す。図４は、４つの意味グループが多言語の語彙に含まれ、各意味グループは２つの言語の単語の意味と５つの言語のアルファベットのグループを含むことを示すことに注意されたい。しかし、これらの数は単なる例であり、本発明はこれらに限定されない。

図２のステップＳ３をさらに説明する。音声認識部１５１により、多言語の語彙および原語に従ってセンテンスを形成する。図１、図２、図４および図６を参照されたい。ここで、図６は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分的なフローチャートである。ステップＳ３１において、音声認識部１５１は、決定された原語の言語ファミリー分布に従って統一された言語を選択することができる。ステップＳ３２において、音声認識部１５１は、多言語の語彙に従って、決定された原語に対応する変換された単語を取得し、変換された単語によってセンテンスを形成する。特に、いくつかの特定の言語が単一の言語ファミリーに属する規則は、音声認識部１５１に事前に設定できる。図４に示す多言語の語彙を例に取ると、音声認識部１５１は、言語Ｌ１〜Ｌ３（標準中国語、台湾語、客家語）は、中国語のファミリーに属すると認識するように事前に設定できる。前のステップで決定された原語が／ｕｏ２１４／／ｋｈｉａ２４／／’ｂａｉｓｉｒｋｈｌ／である場合、／ｕｏ２１４／は中国語のファミリーに属する言語Ｌ１に対応し、／ｋｈｉａ２４／は同じく中国語のファミリーに対応する言語Ｌ２に属するが、／’ｂａｉｓｉｒｋｈｌ／は英語のファミリーに属する言語Ｌ４に対応し、音声認識部１５１は中国語のファミリーに属する原語の割合が高いと判断し、音声認識部１５１は統一された言語である中国語を選択する。次いで、音声認識部１５１は、原語／ｕｏ２１４／、／ｋｈｉａ２４／および／’ｂａｉｓｉｒｋｈｌ／にそれぞれ対応する単語の意味「Ｉ」、「ｒｉｄｅ」および「ｂｉｃｙｃｌｅ」を取得し、これらの単語の意味を変換された単語とみなし、これらの変換された単語によって「Ｉｒｉｄｅｂｉｃｙｃｌｅ」という文を形成する。

図２の前述のステップＳ１〜Ｓ３により、多言語音声認識およびテーマ−意義素解析装置１の音声認識部１５１は、最初に音声入力に対応するセンテンスを取得することができる。次に、意味解析部１５３は、修正手順を選択的に実行することができる。図２のステップＳ４をさらに説明する。意味解析部１５３により、センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスの出力手順を選択的に実行する。図１、図２、図７、および図８を参照のこと。図７は、本発明の一実施形態に係るテーマ語彙−意味関係データセットの概略図であり、図８は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の部分的なフローチャートである。図７に示すように、テーマ語彙−意味関係のデータセットは、教育テーマ、医療テーマ、ビジネステーマなどの複数のテーマを含めることができる。これらの各テーマには、人、物事、場所、オブジェクトのカテゴリが含まれ、各カテゴリには事前に記憶された複数の単語が含まれる。例としての教育テーマの場合、人のカテゴリーには、「教師」、「生徒」、「校長」などの事前に記憶された単語を含めることができる。物事のカテゴリには、「教える」、「学習する」などの事前に記憶された単語を含めることができる。場所のカテゴリには、「教室」、「学校」などの事前に記憶された単語を含めることができる。オブジェクトのカテゴリには、「教科書」、「文房具」などを含めることができる。テーマ語彙−意味関係のデータセットは、これらの事前に記憶された単語間の関係を含み、異なるカテゴリの事前に記憶された単語間の関係などを含むことができ、これらの関係は、図７において点線によって示される。テーマ語彙−意味関係データセットは図７として例示的に示されているが、他の実施形態では、テーマ語彙−意味関係データセットは他の種類のテーマを含むことができ、これらのテーマにはそれぞれ、１つ以上の事前に記憶された単語を含むさまざまなカテゴリを含めることができることに留意されたい。

エラー率が第３エラー率の範囲内にある場合、音声認識部１５１は修正手順を実行する。図１、図２、および図９を参照されたい。図９は、本発明の一実施形態に係る多言語音声認識およびテーマ−意義素解析方法の修正手順のフローチャートである。修正手順は、図９に示されるステップＳ７１〜Ｓ７４を含むことができる。ステップＳ７１において、意味解析部１５３は、言語認識のための音響モデルを使用して紛らわしいセンテンスセットを生成する。紛らわしいセンテンスセットは、複数のセンテンス候補を含む。特に、言語認識音響モデルは、Ｎ−ｂｅｓｔ検索アルゴリズムを使用して、センテンスの元の音声入力に対応する１つ以上のセンテンス候補を取得し、１つ以上のセンテンス候補を紛らわしいセンテンスセットに格納できる。たとえば、Ｎ−ｂｅｓｔ検索アルゴリズムによって取得されたセンテンス候補の数は５である。ステップＳ７２において、意味解析部１５３は、多言語の語彙およびセンテンス中の変換された単語に対応する原語に従って、紛らわしいセンテンスセットを補足する。特に、意味解析部１５３は、原語として役立つアルファベットグループと同一または類似する他の事前に記憶されたアルファベットグループの多言語の語彙を検索し、これらの事前に記憶されたアルファベットグループによって１つ以上のセンテンス候補を形成し、当該１つ以上のセンテンス候補を紛らわしいセンテンスセットに記憶することができる。より具体的には、メモリ２または意味解析部１５３は、／ｔｓｃｉａｈ５／と／ｋｈｉａ２４／との間の関係など、複数の紛らわしい音声関係を記憶することができる。この場合、意味解析部１５３は、原語として機能するアルファベットと同一の他の事前に記憶されたアルファベットグループを検索することに加えて、原語と混乱する関係を有する事前に記憶されたアルファベットグループをさらに検索することができる。

上記を考慮して、本開示で提供される多言語音声認識およびテーマ−意義素解析方法および装置は、特定の音声認識および特定のテーマ意義素解析を組み合わせる。これにより、音声の内容を対応するセンテンスに変換する精度が向上する。

Claims

音声認識部により、発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、
前記音声認識部により、前記アルファベット文字列が多言語の語彙に従って複数の原語に対応すると決定し、
前記音声認識部により、前記多言語の語彙および複数の原語に従ってセンテンスを形成し、
意味解析部により、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順または前記センテンスを出力する手順を選択的に実行し、
前記意味解析部により、前記修正手順が成功したと判定するとき、前記修正されたセンテンスを出力し、
前記意味解析部によって、前記修正手順が失敗したと決定するとき、前記解析状態決定手順を実行して、決定された結果を選択的に出力する、
多言語音声認識およびテーマ−素意義解析方法。
前記センテンスは、統一された言語で複数の変換された単語を含み、
前記センテンスおよび前記テーマ語彙−意味関係データセットに従って、前記修正された文を生成するための前記修正手順、前記解析状態決定手順、または前記センテンスを出力する手順を選択的に実行するステップは、
前記センテンスおよびテーマ語彙−意味関係データセットに従って、前記複数の変換された単語のエラー率を決定し、
前記エラー率が第１エラー率の範囲にある場合、前記センテンスを出力し、
前記エラー率が第１エラー率の範囲にある場合、前記センテンスを出力し、
前記エラー率が第３のエラー率の範囲にある場合は、前記修正手順を実行する、
請求項１に記載の多言語音声認識およびテーマ−素意義解析方法。
前記センテンスおよびテーマ語彙−意味関係データセットに従って、前記複数の変換された単語のエラー率を決定するステップは、
前記センテンスは１つ以上のサブセンテンスを有すると判定し、
前記１つ以上のサブセンテンスのそれぞれについて、前記テーマ語彙−意味関係データセットに従って前記サブセンテンスの均一なテーマ比率を決定し、
前記１つ以上のサブセンテンスのそれぞれの前記均一なテーマ比率に従ってエラー率を取得することを含む、
請求項２に記載の多言語音声認識およびテーマ−素意義解析方法。
前記センテンスおよび前記テーマ語彙−意味関係データセットに従って、前記修正された文を生成するための前記修正手順、前記解析状態決定手順、または前記センテンスを出力する手順を選択的に実行するステップは、さらに
前記テーマ語彙−意味関係データセットとして機能する複数の事前に記憶されたテーマ語彙−意味関係データセットの１つを選択することを含み、
前記複数の事前に記憶されたテーマ語彙−意味関係データセットはそれぞれ異なる言語に対応し、前記テーマ語彙−意味関係データセットは統一された言語に対応する、
請求項２に記載の多言語音声認識およびテーマ−素意義解析方法。
前記修正手順は、
言語認識音響モデルによって紛らわしいセンテンスセットを生成し、
前記紛らわしいセンテンスセットは複数のセンテンス候補を含み、
前記複数の原語と前記多言語の語彙に従って、前記紛らわしいセンテンスセットを補足し、
前記テーマ語彙−意味関係データセットに従って、前記複数のセンテンス候補の中に適切なセンテンスが存在するかどうかを判定し、
前記適切なセンテンスが存在する場合、前記センテンスを前記適切なセンテンスに置き換え、修正手順が成功すると判定し、
前記適切なセンテンスが存在しない場合、前記修正手順が失敗したと判定する、
請求項１に記載の多言語音声認識およびテーマ−素意義解析方法。
前記解析状態決定手順は
前記音声認識部による多言語の語彙に従って、前記アルファベット文字列が複数の原語に対応すると決定するステップの実行回数が、事前に設定された回数を超えるかどうかを判定し、
前記実行回数が前記事前に設定された回数を超えない場合、前記多言語の語彙に従って、前記アルファベット文字列が別の複数の原語に対応することを再認識するように前記音声認識部に指示し、
前記実行回数に１を加算し、
前記実行回数が前記事前に設定された回数を超えた場合、故障の表示または音声入力要求を出力すること、を含む、
請求項１に記載の多言語音声認識およびテーマ−素意義解析方法。
前記多言語の語彙に従って、前記アルファベット文字列が前記複数の原語に対応すると決定するステップは、第１の単語分割方法により実行され、前記多言語の語彙に従って前記アルファベット文字列が前記別の複数の原語に対応することを再決定するステップは、前記第１の単語分割方法とは異なる第２の単語分割方法によって実行される、
請求項６に記載の多言語音声認識およびテーマ−素意義解析方法。
前記多言語の語彙および前記複数の原語に従って前記センテンスを形成するステップは、前記複数の原語の言語ファミリー分布に従って統一された言語を選択し、
前記多言語の語彙に従って、前記複数の原語にそれぞれ対応する複数の変換された単語を取得し、前記複数の変換された単語によってセンテンスを形成することを含み、
前記変換された単語は、前記統一された言語に属する、
請求項６に記載の多言語音声認識およびテーマ−素意義解析方法。
前記アルファベット文字列がＭ個のアルファベットを含み、前記アルファベット文字列が前記多言語の語彙に従って前記複数の原語に対応すると決定するステップは、
前記アルファベット文字列で認識されるアルファベットグループを設定し、前記認識されるアルファベットグループは先頭位置と終了位置を有し、
前記先頭位置の値を１に設定し、前記終了位置の値をＭに設定し、
前記多言語の語彙において前記アルファベットグループに一致する事前に記憶されたアルファベットグループの数を決定し、
前記数がゼロの場合、前記終了位置の値から１を減算し、前記多言語の語彙において前記アルファベットグループに一致する前記事前に記憶されたアルファベットグループの数を決定するステップを再実行し、
前記数が１の場合、前記事前に記憶されたアルファベットグループを前記複数の原語の１つとみなし、
前記数が１以上の場合、前記事前に記憶されたアルファベットグループを保留中の単語セットに記憶すること、を含む、
請求項１に記載の多言語音声認識およびテーマ−素意義解析方法。
前記アルファベット文字列が前記多言語の語彙に従って前記複数の原語に対応すると決定するステップは、
前記数が１以上の場合、終了位置の値がＭに等しいかどうかをさらに判定し、
前記終了位置の値がＭに等しくない場合、前記終了位置の値と前記先頭位置の値の合計を前記先頭位置の新しい値に設定し、前記終了位置の値をＭに設定し、
前記多言語の語彙において、前記アルファベットグループに一致する事前に記憶されたアルファベットグループの数を決定するステップを再実行すること、さらに含む、
請求項９に記載の多言語音声認識およびテーマ−素意義解析方法。
前記アルファベット文字列が前記多言語の語彙に従って前記複数の原語に対応すると決定するステップは、さらに
前記アルファベット文字列内における前記決定された原語の言語分布に従って、前記保留中の単語セット内の事前に記憶されたアルファベットグループの１つを前記複数の原語の別の原語として選択することを含む、
請求項９に記載の多言語音声認識およびテーマ−素意義解析方法。
音声入力信号を受信するように構成された音声入力インターフェースと、
センテンス、修正された文、または決定された結果を出力するように構成された出力インターフェースと、
前記音声入力インターフェースと前記出力インターフェースに接続されたプロセッサであって、前記プロセッサは、
発音アルファベット表に従って音声入力信号に対応するアルファベット文字列を取得し、多言語の語彙に従って前記アルファベット文字列が複数の原語に対応すると決定し、前記多言語の語彙と前記複数の原語に従って、センテンスを形成するように構成された音声認識部、および
前記音声認識部に接続され、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、またはセンテンスを出力する手順を選択的に実行し、前記修正手順が成功した場合に修正されたセンテンスを出力し、修正手順が失敗した場合に決定結果を選択的に出力するために前記解析状態決定手順を実行するように構成された意味解析部を含む、プロセッサと、を含む、
多言語音声認識およびテーマ−素意義解析装置。
メモリをさらに備え、
前記メモリは、前記プロセッサと電気的に接続され、前記発音アルファベット表、前記多言語の語彙、および前記テーマ語彙−意味関係データセットを記憶する、
請求項１２に記載の多言語音声認識およびテーマ−素意義解析装置。
前記プロセッサは、メモリとの通信接続を有し、前記メモリからの前記発音アルファベット表、前記多言語の語彙、および前記テーマ語彙−意味関係データセットを取得するように構成される、
請求項１２に記載の多言語音声認識およびテーマ−素意義解析装置。
前記センテンスは、統一された言語における複数の変換された単語を含み、
前記意味解析部によって実行される、前記センテンスおよびテーマ語彙−意味関係データセットに従って、修正されたセンテンスを生成する修正手順、解析状態決定手順、または前記センテンスを出力する手順を選択的に実行するステップは、
前記センテンスおよび前記テーマ語彙−意味関係データセットに従って、前記複数の変換された単語のエラー率を決定し、
前記エラー率が第１エラー率の範囲にある場合、前記センテンスを出力し、
前記エラー率が第１エラー率の範囲にある場合、前記センテンスを出力し、そして
前記エラー率が第３のエラー率の範囲にある場合は、前記修正手順を実行する、
請求項１２に記載の多言語音声認識およびテーマ−素意義解析装置。
前記意味解析部によって実行される前記センテンスおよびテーマ語彙−意味関係データセットに従って、前記複数の変換された単語のエラー率を決定するステップは、
前記センテンスは１つ以上のサブセンテンスを有すると判定し、
前記１つ以上のサブセンテンスのそれぞれについて、前記テーマ語彙−意味関係データセットに従って前記サブセンテンスの均一なテーマ比率を決定し、
前記１つ以上のサブセンテンスのそれぞれの前記均一なテーマ比率に従ってエラー率を取得することを含む、
請求項１５に記載の多言語音声認識およびテーマ−素意義解析装置。
前記意味解析部によって実行される、前記センテンスおよびテーマ語彙−意味関係データセットに従って修正されたセンテンスを生成する修正手順、解析状態決定手順、または前記センテンスを出力する手順を選択的に実行するステップは、さらに
複数の事前に記憶されたテーマ語彙−意味関係データセットのうちの１つを選択して、前記テーマ語彙−意味関係データセットとして機能し、前記複数の事前に記憶されたテーマ語彙−意味関係データセットはそれぞれ異なる言語に対応し、前記テーマ語彙−意味関係データセットは前記統一された言語に対応する、ことを含む、
請求項１５に記載の多言語音声認識およびテーマ−素意義解析装置。
前記意味解析部によって実行される前記修正手順は、
言語認識音響モデルによって紛らわしいセンテンスセットを生成し、前記紛らわしいセンテンスセットは複数のセンテンス候補を含み、
前記複数の原語および前記多言語の語彙に従って、前記紛らわしいセンテンスセットを補足し、
前記テーマ語彙−意味関係データセットに従って、前記複数のセンテンス候補の中に適切なセンテンス候補が存在するかどうかを決定し、
前記適切なセンテンス候補が存在する場合、前記センテンスを適切なセンテンス候補に置き換え、前記修正手順が成功したと決定し、
前記適切なセンテンス候補が存在しない場合、修正手順が失敗したと決定することを含む、
請求項１２に記載の多言語音声認識およびテーマ−素意義解析装置。
前記意味解析部によって実行される前記解析状態決定手順は、
前記音声認識部による多言語の語彙に従って、アルファベット文字列が複数の原語に対応すると決定するステップの実行回数が、事前に設定された数を超えるかどうかを決定し、
前記実行回数が予め設定された数を超えない場合、前記多言語の語彙に従って、前記アルファベット文字列が別の複数の原語に対応することを再認識するように音声認識部に指示し、前記実行回数に１を加算し、
前記実行回数が予め設定された数を超える場合、障害インジケータまたは音声入力要求を出力することを含む、
請求項１２に記載の多言語音声認識およびテーマ−素意義解析装置。
前記音声認識部は、第１の単語分割方法による前記多言語の語彙に従って、前記アルファベット文字列が前記複数の原語に対応すると決定するステップを実行し、そして、第１の単語分割方法とは異なる第２の単語分割方法により、前記多言語の語彙に従って前記アルファベット文字列が他の複数の原語に対応すると再決定するステップを実行する、
請求項１９に記載の多言語音声認識およびテーマ−素意義解析装置。