JP2023054951A

JP2023054951A - 音声認識システム、音声認識方法、辞書登録システム、及び、辞書登録方法

Info

Publication number: JP2023054951A
Application number: JP2021163989A
Authority: JP
Inventors: 裕介森川; Yusuke Morikawa; 伸也日月; Shinya Tachimori
Original assignee: Onkyo Corp
Current assignee: Onkyo Corp
Priority date: 2021-10-05
Filing date: 2021-10-05
Publication date: 2023-04-17

Abstract

【課題】Ｎグラムの肥大化を防止すること。【解決手段】辞書を用いて音声を認識する音声認識システムである。同形異音語において、文脈により読み方が決まる同形異音語は、２以上の別の単語として、辞書に登録されている。また、文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されている。同形異音語が、辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われる。【選択図】図１

Description

本発明は、音声を認識する音声認識システム、音声認識方法、音声認識に用いられる辞書に単語を登録する辞書登録システム、及び、辞書登録方法に関する。

日本語の音声認識において、同形異音語が多数存在するという言語的特徴が問題となる場合ある。「同形異音語」とは、同じ表記でありながら異なる読み（発音）を持つ語を指す。例えば、「２」の場合、「ニ」、「ジ」等の読み方がある。しかしながら、「２」の発音の仕方として、「ニ／ジ」を辞書に登録した場合、「９時／クジ」という音声を、「９２／クジ」と誤って認識してしまうことがある。

上述した問題を解決する従来技術として、同形異音語を読み方ごとに別々の単語として扱う手法が知られている（例えば、特許文献１参照。）。この手法では、例えば、「２／ニ」、「２／ジ」をそれぞれ別々の単語として、辞書に登録する。

特開２００７－００４６３３号公報

しかしながら、上述した従来技術では、「言う／イウ」と「言う／ユー」のような、単なる読み方の微妙な違いでしかない語についても区別することになり、Ｎグラムが肥大化してしまうという問題がある。

本発明の目的は、Ｎグラムの肥大化を防止することである。

第１の発明の音声認識システムは、辞書を用いて音声を認識する音声認識システムであって、同形異音語において、文脈により読み方が決まる同形異音語は、２以上の別の単語として、前記辞書に登録され、文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されていることを特徴とする。

本発明では、文脈により読み方が決まる同形異音語は、２以上の別の単語として、辞書に登録される。また、文脈により読み方が決まらない同形異音語は、１つの単語として、辞書に登録される。これにより、Ｎグラムが肥大化することがない。

第２の発明の音声認識システムは、第１の発明の音声認識システムにおいて、同形異音語が、前記辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われることを特徴とする。

第３の発明の音声認識システムは、第２の発明の音声認識システムにおいて、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加されることを特徴とする。

第４の発明の音声認識方法は、辞書を用いて音声を認識する音声認識方法であって、同形異音語において、文脈により読み方が決まる同形異音語は、２以上の別の単語として、前記辞書に登録され、文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されていることを特徴とする。

第５の発明の辞書登録システムは、音声認識に用いられる辞書に単語を登録する辞書登録システムであって、同形異音語において、文脈により読み方が決まる同形異音語を、２以上の別の単語として、前記辞書に登録し、文脈により読み方が決まらない同形異音語を、１つの単語として、前記辞書に登録することを特徴とする。

第６の発明の辞書登録システムは、第５の発明の辞書登録システムにおいて、同形異音語が、文脈により読み方が決まるか否かに基づいて、グループ分けを行うことを特徴とする。

第７の発明の辞書登録システムは、第６の発明の辞書登録システムにおいて、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報を付加することを特徴とする。

第８の発明の辞書登録方法は、音声認識に用いられる辞書に単語を登録する辞書登録方法であって、同形異音語において、文脈により読み方が決まる同形異音語を、２以上の別の単語として、前記辞書に登録し、文脈により読み方が決まらない同形異音語を、１つの単語として、前記辞書に登録することを特徴とする。

本発明によれば、Ｎグラムが肥大化することがない

グループ分けの例を示す図である。辞書登録における処理動作を示すフローチャートである。

以下、本発明の実施形態について説明する。音声を認識する音声認識システムは、例えば、マイクロホン、スピーカー等を備えるスピーカー装置、スピーカー装置と通信するクラウドサーバーから構成される。スピーカー装置において、ユーザーが発話した音声が、マイクロホンにより、集音される。スピーカー装置において集音された音声が、クラウドサーバーに送信され、クラウドサーバーにおいて、音声認識が行われる。なお、音声認識システムは、例えば、マイクロホン、スピーカー等を備えるスピーカー装置のみにより構成され、スピーカー装置で音声認識が行われてもよい。また、音声認識機能を備えていれば、上述のスピーカー装置に限られず、他の電子機器のみで、音声認識システムが構成されていてもよい。

上述の音声認識システムにおいて、音声認識に、辞書が用いられる。辞書には、単語が登録されている。辞書に登録されている同形異音語において、文脈により読み方が決まる同形異音語は、２以上の別の単語として、辞書に登録されている。文脈により読み方が決まらない同形異音語は、１つの単語として、辞書に登録されている。従って、単語の辞書登録時、文脈により読み方が決まる同形異音語を、２以上の別の単語として、辞書に登録する。また、文脈により読み方が決まらない同形異音語を、１つの単語として、辞書に登録する。

同形異音語が、辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われる。図１は、グループ分けの例を示す図である。（ａ）は、「言う」の場合の例を示し、（ｂ）は、「１」の場合の例を示している。「言う」の場合、文脈により読み方が決まらないため、１つのグループ（グループＡ）となる。また、「１」の場合、文脈により読み方が決まるため（「１／イチ」、「１／イッ」、「１／ヒト」）、グループＡ～Ｃにグループ分けされる。また、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加される。例えば、「言う」の場合、「イウ」、「ユー」が付加される。また、「１」のグループＡの場合、「イチ」、「イーチ」が付加される。

図２は、辞書登録における処理動作を示すフローチャートである。まず、コーパスが作成される（Ｓ１）次に、音響モデルのトレーニングが行われる（Ｓ２）。次に、同形異音語のグループ分けが行われる（Ｓ３）。次に、形態素に発音情報が付加される（Ｓ４）。次に、言語モデルのトレーニングが行われる（Ｓ５）。

以上説明したように、本実施形態では、文脈により読み方が決まる同形異音語は、２以上の別の単語として、辞書に登録される。また、文脈により読み方が決まらない同形異音語は、１つの単語として、辞書に登録される。これにより、Ｎグラムが肥大化することがない。

また、本実施形態では、各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加される。これにより、同形異音語をグループ毎に別の形態素として扱うことができ、Ｎグラムも別々のものとして計算されるようになる。

以上、本発明の実施形態について説明したが、本発明を適用可能な形態は、上述の実施形態には限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更を加えることが可能である。

本発明は、音声を認識する音声認識システム、音声認識方法、音声認識に用いられる辞書に単語を登録する辞書登録システム、及び、辞書登録方法に好適に採用され得る。

Claims

辞書を用いて音声を認識する音声認識システムであって、
同形異音語において、
文脈により読み方が決まる同形異音語は、２以上の別の単語として、前記辞書に登録され、
文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されていることを特徴とする音声認識システム。
同形異音語が、前記辞書に登録されるときに、文脈により読み方が決まるか否かに基づいて、グループ分けが行われることを特徴とする請求項１に記載の音声認識システム。
各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報が付加されることを特徴とする請求項２に記載の音声認識システム。
辞書を用いて音声を認識する音声認識方法であって、
同形異音語において、
文脈により読み方が決まる同形異音語は、２以上の別の単語として、前記辞書に登録され、
文脈により読み方が決まらない同形異音語は、１つの単語として、前記辞書に登録されていることを特徴とする音声認識方法。
音声認識に用いられる辞書に単語を登録する辞書登録システムであって、
同形異音語において、
文脈により読み方が決まる同形異音語を、２以上の別の単語として、前記辞書に登録し、
文脈により読み方が決まらない同形異音語を、１つの単語として、前記辞書に登録することを特徴とする辞書登録システム。
同形異音語が、文脈により読み方が決まるか否かに基づいて、グループ分けを行うことを特徴とする請求項５に記載の辞書登録システム。
各グループにおいて、各形態素に与えられている注釈から、形態素に発音情報を付加することを特徴とする請求項６に記載の辞書登録システム。
音声認識に用いられる辞書に単語を登録する辞書登録方法であって、
同形異音語において、
文脈により読み方が決まる同形異音語を、２以上の別の単語として、前記辞書に登録し、
文脈により読み方が決まらない同形異音語を、１つの単語として、前記辞書に登録することを特徴とする辞書登録方法。