JP7479249B2

JP7479249B2 - 未知語検出方法及び未知語検出装置

Info

Publication number: JP7479249B2
Application number: JP2020147193A
Authority: JP
Inventors: 慶華孫
Original assignee: Hitachi Solutions Technology Ltd
Current assignee: Hitachi Solutions Technology Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2024-05-08
Anticipated expiration: 2040-09-02
Also published as: JP2022042033A

Description

本発明は、音声認識技術に関するものであり、特に音声認識システムに含まれていない語彙（未知語）を検出する装置及び方法に関する。

近年、深層学習などの技術の進歩により、音声認識の精度が大きく向上した。読み上げ音声や講演音声などにおいては、音声認識精度はすでに人間を超えるレベルになってきた。それを背景に、音声認識システムは広く使われるようになった。例えば、会議の議事録作成やコールセンターの会話履歴の自動生成など、音声認識ビジネスの市場は大きく成長している。

音声認識システムには、大きく分けて、音声から特徴を抽出して音素配列に変換する音響モデルと、音素配列から単語配列に変換する言語モデルで構成されている。音声認識の誤りについては、音響モデルに起因する周囲の雑音や発音の訛りによるものと、言語モデルに起因する未知語（音声認識システムに登録されていない単語）によるものと、大きく分類できる。

未知語を検出する技術としては、特許文献１が知られている。特許文献１の技術は、認識音声に含まれる未知語が、繰り返して複数回出現していることに注目し、音素特徴的に似たパターンが繰り返されて、かつ、既知語でないものに対して、登録を行っている。

特開２０１７－１８７５４１号公報

上記特許文献１では、繰り返し出現する音素列を未知語候補として抽出しているため、出現回数の少ない未知語は検出できない、という問題があり、検出精度の向上が必要となる。

汎用的な音声認識製品における言語モデルは、大規模なテキストコーパスから学習することが広く行われている。しかし、すべての語彙を網羅するテキストコーパスを用意することができない。

特に、言語は日々進化していて、新語が毎日のように作られているので、未知語の問題はどうしても避けれられない。未知語では、新語や固有名詞などの種類が挙げられる。例えば、２０１９年新語流行語大賞にある、「タピる」や「令和」などは典型的な新語である。

そして、ユーザ特有の省略語や固有名詞なども存在する。例えば、商品名である「ＡＢＣ２０２０」、研究開発本部の略語である「研開」については、ユーザ自身が登録しなければならない。しかし、ユーザにとっては、未知語登録は人手に頼る部分が大きく、非常にコストがかかる。特に、どの単語が未知語であるのか、何を登録すべきなのか、について分かりにくく、ユーザにとって大きな負担となる。

コールセンターの利用を想定した場合、オペレーターとカスタマーとの会話履歴がすでに大量に蓄積されていたり、オペレーター用のＱ＆Ａマニュアルが整備されていたりして、音声認識のターゲットドメイン（業務内容や利用シーン）におけるテキストコーパス（以降、ドメインテキストと呼ぶ）が存在することが多い。

ターゲットドメインに特化した音声認識用言語モデルをチューニングするためには、ドメインテキストに含まれる未知語を、音声認識システムに登録することが必要である。これまでは、未知語の登録がユーザにとって、大きな負担となっていた。

そこで、ドメインテキストから自動的に未知語を検出し、自動登録可能な単語を自動登録し、自動登録できない単語だけ、ユーザに提示することができれば、登録作業コストを大きく削減することができる。

本発明は、上記問題点に鑑みてなされたもので、登録すべき未知語を自動的にユーザに提示することを目的とする。

本発明は、プロセッサとメモリを有する計算機が、入力テキストから未知語を検出する未知語検出方法であって、前記計算機が、前記入力テキストを音素配列に変換する音素変換ステップと、前記計算機が、前記音素配列を受け付けて、予め設定された言語モデルを参照して前記音素配列を出力テキストに変換する認識ステップと、前記入力テキストと上記変換された前記出力テキストを比較して未知語を検出する未知語検出ステップと、を含む。

本発明によれば、登録すべき未知語を自動的にユーザに提示することが可能となって、ユーザの負担を減らす効果がある。

本明細書において開示される主題の、少なくとも一つの実施の詳細は、添付されている図面と以下の記述の中で述べられる。開示される主題のその他の特徴、態様、効果は、以下の開示、図面、請求項により明らかにされる。

従来の音声認識部の概要を説明するブロック図である。本発明の実施例１による未知語自動検出装置の概略構成を示すブロック図である。本発明の実施例１に係る未知語自動検出装置の構成の一例を説明する図である。本発明の実施例１における音声合成部の処理を説明する図である。本発明の実施例１におけるテキスト変換部の処理を説明する図である。本発明の実施例１における未知語検出部の処理を説明する図である。本発明の実施例１における形態素解析モジュールから出力される形態素配列の一例を示す図である。本発明の実施例１における音素配列生成モジュールから出力される確率付き音素配列の一例を示す図である。本発明の実施例１における音声認識ユーザ辞書登録部の処理を説明する図である。本発明の実施例２に係る未知語自動検出装置の機能の一例を説明する図である。本発明の実施例２における音声合成部の処理を説明する図である。本発明の実施例２におけるテキスト変換部の処理を説明する図である。本発明の実施例３における未知語自動検出装置の概略構成を示すブロック図である。

以下、本発明の実施形態を添付図面に基づいて説明する。

本実施例では、ユーザの用意したドメインテキストから、音声合成システムを利用した音声認識システムの未知語自動検出を行い、登録語候補を提示することを想定した基本構成を説明する。なお、ドメインテキストは、音声認識のターゲットドメイン（業務内容や利用シーン）におけるテキストコーパスである。

＜システム構成＞
図１Ａは、従来の音声認識部（音声認識システム）の構成を示す図である。従来から、音声認識部３０は、予め設定された音響モデル３１０を用いて入力音声から音声特徴を抽出する音響特徴解析部３１と、予め設定された言語モデル３２０を用いて音響特徴からテキストに変換（デコード）するテキスト変換部で構成される。本実施例は、このような音声システムの言語モデルをチューニングする未知語自動検出装置を想定している。なお、以下では、音響モデル３１０と言語モデル３２０を合わせて音声認識辞書３００とする。

以下では、○○装置、○○部、○○モジュールという表現で内部処理の各単位を呼称するが、ハードウェアとしての実現も、ソフトウェアプログラムとして実現されたシステム、又はプログラムという形態で実現することも可能である。また、図面には、○○装置、○○部、○○モジュールについて、○○の部分のみを表記し、装置、部、モジュールを省略することもある。

また、以下の説明では、日本語音声認識を例にしているが、ほかの言語、もしくは、複数言語の混じっている場合も処理が可能である。ただし、その場合は、その言語に対応したプログラム及びデータを用いなければならない。

＜構成＞
図１Ｂは、本発明の実施例１による未知語自動検出装置１００の概略構成の一例を示すブロック図である。

当該未知語自動検出装置１００は、記憶装置１０１と、テキスト入力Ｉ／Ｆ（インタフェース）１０２と、ＣＰＵ１０３と、主記憶装置であるメモリ１０４と、スピーカーに接続するための音声出力Ｉ／Ｆ１０５と、テキスト提示Ｉ／Ｆ１０６と、を有し、これらの構成部はバス１０７によって相互に接続されている。

未知語自動検出装置１００は、例えば、カーナビゲーション装置や、携帯電話機、パーソナルコンピュータ等のデバイスに、未知語自動検出ユニットとして組み込まれている。そのため、図１Ｂに示した各ハードウェアは、未知語自動検出装置が組み込まれたデバイスの構成を用いて実現している。

メモリ１０４には、テキスト入力部１０と、音声合成部２０と、音声認識部３０と、未知語検出部４０と、音声合成ユーザ辞書登録部５０と、音声認識ユーザ辞書登録部６０がプログラムとしてロードされて、ＣＰＵ１０３によって実行される。

ＣＰＵ１０３は、各機能部のプログラムに従って処理を実行することによって、所定の機能を提供する機能部として稼働する。例えば、ＣＰＵ１０３は、音声認識プログラムに従って処理を実行することで音声認識部３０として機能する。他のプログラムについても同様である。さらに、ＣＰＵ１０３は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

記憶装置１０１は、不揮発性の記憶媒体で構成されて、各プログラムが使用するデータを格納する。データとしては、例えば、音声合成辞書２１０と、形態素辞書２２０と、フレーズ辞書２３０と、音響モデル３１０と、言語モデル３２０が含まれる。なお、音声合成辞書２１０と、形態素辞書２２０と、フレーズ辞書２３０と、音響モデル３１０と、言語モデル３２０は、周知又は公知の技術で生成すればよいので、本実施例では詳述しない。

＜機能＞
図２は、未知語自動検出装置１００の構成の一例を説明する図である。図２に示すように、未知語自動検出装置１００は、テキスト入力部１０と、音声合成部２０と、音声合成ユーザ辞書登録部５０と、テキスト変換部３２と、未知語検出部４０と、音声認識ユーザ辞書登録部６０を機能として有している。

以下、それぞれについて詳細に説明する。特に、テキスト変換部３２は本発明の特徴となる部分である。そして、音声合成ユーザ辞書登録部５０は、より高精度に未知語を検出するための処理であるが、必須ではない。

テキスト入力部１０は、ユーザが用意したドメインテキストを受け付けて、そのまま音声合成部２０に出力する。

音声合成部２０は、音声合成辞書２１０を参照して入力テキストから音声合成を行い、音素配列を生成してテキスト変換部３２へ出力する。テキスト変換部３２は、音素配列を入力して音声認識辞書３００を参照してテキストに変換するテキスト変換モジュール（図１１）を有する。

未知語検出部４０は、変換されたテキストの単語配列（出力テキスト）と、音声合成部２０からの形態素配列を入力して、後述するように言語モデル３２０に登録されていない未知語の候補を検出する。音声認識ユーザ辞書登録部６０は、未知語の候補から選択された未知語を音声認識辞書３００へ登録する。なお、図示の例では、未知語検出部４０へ音声合成部２０からの形態素配列を入力する例を示したが、これに限定されるものではなく、入力テキストを未知語検出部４０へ入力してもよい。

音声合成部２０は、音声合成システムに含まれるモジュールを利用することを想定している。図３は、音声合成部２０の処理を説明する図である。

音声合成部２０は、文分割モジュール２１と、形態素解析モジュール２２と、フレーズ解析モジュール２３と、音素配列生成モジュール２４と、音声波形生成モジュール２５で構成されている。

図３を用いて、音声合成部２０の各機能ブロックについて、説明する。図３において、音声波形生成モジュール２５は、音声合成ユーザ辞書登録部５０に必要な処理であり、音声合成ユーザ辞書登録部５０が不要な場合は、この音声波形生成モジュール２５も不要となる。音声合成ユーザ辞書登録部５０が不要な場合は、音声認識部３０が音素配列でテキストの変換を実施する場合であり、この場合は合成音声を利用しないからである。

文分割モジュール２１は、入力したテキストを文単位に分割する機能を有する。本実施例の文分割モジュール２１は、周知又は公知の音声合成に含まれるモジュールであるため、本実施例１ではその説明を省略する。

形態素解析モジュール２２は、入力された文単位のテキストに対して、形態素解析を行うモジュールである。本実施例の形態素解析モジュール２２は、周知又は公知の音声合成の形態素解析とほぼ同じだが、音声合成の場合は、最も確率の高い形態素配列のみを出力されるのに対して、本実施例の形態素解析モジュール２２は、すべての同形異音語の形態素配列５１０を出力する。

図６は、形態素解析モジュール２２が出力する形態素配列５１０の一例を示す図である。形態素解析モジュール２２は、「明日７時集合」と入力されたときに、図６で示したような接続可能な複数の同形異音語の形態素（図中Ｔ１ａ、Ｔ１ｂやＴ２ａ、Ｔ２ｂ）をすべて出力する。

形態素解析モジュール２２が同形異音語の形態素配列５１０を出力することにより、ありうるすべての読み方に対して、未知語検出部４０で未知語検出を行い、同形異音語の形態素について未登録による未知語も検出可能である。

この形態素解析モジュール２２で得られた形態素配列５１０は、フレーズ解析モジュール２３と未知語検出部４０のテキスト表記正規化モジュールに出力される。

ここで、音声認識用の言語モデルを学習するときに発話テキストを形態素に分解してから、言語モデルを学習することが知られている。本形態素解析モジュール２２に用いる形態素解析のアルゴリズム（手法）やモデルは、言語モデル３２０の学習時に用いたものと異なることが推奨される。その理由は、音声認識と音声合成で同じ形態素解析を用いた場合、同じような解析エラーが起こる確率が高いので、未知語検出の精度が低下する。

例えば、未知語である「西国分寺」に対して、形態素解析結果が「西：さい」「国分寺：こくぶんじ」となった場合は、「さいこくぶんじ」の合成音声が音声認識部３０に入力される。

しかし、同じ形態素解析を用いて学習した音声認識の言語モデル３２０は、「さいこくぶんじ」を「西国分寺」に変換する可能性があるので、未知語の検出ができない。しかし、音声合成部２０の形態素解析（形態素解析モジュール２２、形態素辞書２２０）と音声認識部３０の形態素解析が異なる場合は、「さいこくぶんじ」を「再国分寺」に変換される可能性が高いので、未知語の検出率が高まる。

フレーズ解析モジュール２３は、入力された形態素配列５１０をフレーズ単位に切り出してフレーズ単位の形態素配列５２０を出力する。ただし、フレーズ境界は長ポーズが挿入可能なケースに限る。日本語のポーズは、呼吸を伴う長ポーズと、呼吸を伴わない短ポーズが存在する。なお、長ポーズ、短ポーズは、ポーズの長さに応じて予め設定することができる。

長ポーズの前後は、文脈的につながりが弱く、長ポーズで区切られているフレーズ区間が音声認識の区間となることが多い。そこで、音声認識部３０の特徴を考慮して、フレーズ単位（以降、単にフレーズといった場合は、長ポーズに挟まれているフレーズのことを指す）での未知語検出を行う。そうすることにより、音声認識部３０がフレーズを跨いだ候補単語列の検索を防げることができ、未知語に起因しない認識エラーを防止することができる。

例えば、「明日は田氏が行く」に対して、「/あ/, /し/, /た/, /わ/」と「/た/, /し/,/が/, /い/, /く/」の２つのフレーズに切られた音素配列（本発明は、読みやすくするために、音素配列をシラブルで表現することがある。例えば、シラブル「た」は、音素/t/と音素/a/で構成されているが、読みやすくするために、以降、音素配列をシラブル表記の「/た/」で表記する。）が、別々にテキスト変換部３２に出力する。

そこで、文単位でテキスト変換部３２に出力する場合は、「/あ/, /し/, /た/, /わ/, /た/, /し/,/が/, /い/, /く/」の音素配列が、「明日私が行く」に変換される可能性が高い。そうなった場合、未知語による認識エラーではないので、未知語の自動検出精度に影響する。

音素配列生成モジュール２４は、フレーズ単位の形態素配列５２０から、音声認識に対応した音素配列５３０を生成する。生成された音素配列５３０は、テキスト変換部３２に出力するとともに、音声波形生成モジュール２５にも出力する。

音素配列生成モジュール２４は、形態素配列に同形異義語が存在するときに、出現確率付き音素配列５３０を出力すると、テキスト変換部３２では高精度に解析ができる。ただし、確率決定できない場合は同じ確率に設定するとよい。図７は、確率付き音素配列の一例を示す図である。

音声波形生成モジュール２５では、入力された音素配列５３０に対して音声合成を行い、ユーザに音声を提示する。ユーザは読み間違った単語に対して、音声合成ユーザ辞書登録部５０が音声合成辞書２１０内の音声合成ユーザ辞書の登録を行い、テキストから音素配列の予測ミスを防ぐことができ、音声認識部３０の未知語検出精度を向上させることができる。

音声合成ユーザ辞書登録部５０は、音声出力Ｉ／Ｆ１０５とテキスト提示Ｉ／Ｆ１０６を介してユーザに合成音声と入力テキストを提示し、読み間違いの検出をユーザに依頼する。ユーザは読み間違いを発見した場合は、テキスト入力Ｉ／Ｆ１０２を介して音声合成ユーザ辞書に検出された単語を登録し、音声合成部２０をチューニングする。音声合成ユーザ辞書登録は、周知又は公知の音声合成システムが有する機能であり、本発明ではその説明を省略する。

この音声合成ユーザ辞書登録部５０は、必須ではないが、音声合成辞書２１０の未知語を検出できるうえ、音声合成部２０のチューニングともなる。音声合成製品も利用しているユーザに対しては、一石二鳥である。

一方、音声合成辞書２１０に登録した単語（音声合成部２０にとっての未知語）は、音声認識部３０にとっても、未知語である可能性が高いので、同時に音声認識部３０にも登録することがコストの削減につながる。

テキスト変換部３２では、入力された確率付き音素配列５３０に対して、音声認識の言語モデル３２０を用いて、Ｎ通りの単語配列６１０に変換する（Ｎベスト出力とも呼ばれる）。周知又は公知の音声認識ではＮ＝１となっていることが多いため、Ｎ＝１でも問題ない。これは、音素配列５３０からＮベストを出力する機能は、音声認識にとって、広く知られた機能なので、その説明を省略する。

周知又は公知の音声認識は、入力された音声に対して、音響モデル３１０を使って、音素配列に変換するが、本実施例では、音響モデル３１０の影響を除くため、音声合成部２０で生成された音素配列５３０を直接テキスト変換部３２へ入力するようにした。そうすることで、より正確に言語モデル３２０をチューニングすることが可能となる。

未知語検出部４０では、音声合成部２０で入力テキスト１１から得られた形態素配列５１０と、音声認識部３０で得られた認識結果（複数の単語配列６１０）に対して、表記の正規化を行ってから、比較を行う。未知語検出部４０は、表記の異なる部分を未知語の登録候補として、音声認識ユーザ辞書登録部６０に出力する。

図５は、未知語検出部４０の処理を説明する図である。未知語検出部４０は、テキスト表記正規化モジュール４１、４２と、単語比較モジュール４３を含んで、形態素配列５１０と単語配列６１０を入力して未知語リスト７３０を出力する。

テキスト表記正規化モジュール４１、４２は、表記の揺れを吸収する。例えば、送り仮名の揺れ：「引っ越し」と「引越し」や、カタカナ表記の揺れ：「センター」と「センタ」、数字表記の揺れ：「１０」と「十」、漢字かなの揺れ：「為」と「ため」などを統一することにより、単語比較が正確になる。周知又は公知の音声合成部には、テキスト正規化処理モジュールが含まれているので、本実施例ではテキスト表記正規化モジュール４１、４２についての詳細な説明を省略する。

単語比較モジュール４３は、「正規化した正解単語配列７１０」と「正規化した認識結果単語配列７２０」を比較し、異なる部分を抽出する。

例えば、一例では、「私は研開所属です」の例では、「正規化した認識結果単語配列７２０」は「私」「は」「見解」「所属」「です」であり、「正規化した正解単語配列７１０」は、「私」「は」「研開」「所属」「です」となる。単語比較モジュール４３は、２つの単語系列を比較すると、「研開」と「見解」が異なるため、正解単語配列７１０の「表記＝研開；読み＝けんかい；品詞＝固有名詞」を未知語リスト７３０として抽出し、音声認識ユーザ辞書登録部６０に出力する。

図８は、音声認識ユーザ辞書登録部６０の処理を説明する図である。音声認識ユーザ辞書登録部６０は、単語存在確認モジュール６１と、既存単語修正モジュール６２と新規単語登録モジュール６３とで構成される。

音声認識ユーザ辞書登録部６０は、入力された登録候補単語７３０Ａ（又は未知語リスト７３０）をテキスト提示Ｉ／Ｆ１０６を介してユーザに提示し、単語（未知語）登録をサポートする。

未知語自動検出装置１００のユーザは、テキスト入力Ｉ／Ｆ１０２を介して登録する未知語を指定又は修正する。音声認識ユーザ辞書登録部６０は、言語モデル３２０内に予め設定された音声認識ユーザ辞書に指定された単語を登録する。なお、登録候補単語７３０Ａは、未知語リスト７３０の全部又は一部を含むことができる。

単語存在確認モジュール６１は、入力された登録候補単語と同じ表記の単語がすでに音声認識辞書３００の言語モデル３２０（音声認識ユーザ辞書）に登録されているか否かを判定する（Ｓ１）。

音声認識ユーザ辞書登録部６０は、登録されていない場合は単語登録をユーザに依頼する。新規単語登録モジュール６３は、ユーザからの指令に基づいて音声認識辞書３００の言語モデル３２０に単語を登録する。

単語存在確認モジュール６１は、同じ表記の単語がすでに登録されている場合は、登録単語の登録情報が間違っていないか、ユーザに修正の有無を依頼する（Ｓ２）。ユーザが修正する必要がないと、判断した場合は、新しい単語として登録することをユーザに依頼する（Ｓ３）。この音声認識ユーザ辞書登録部６０は、ユーザがテキスト提示Ｉ／Ｆ１０６やテキスト入力Ｉ／Ｆ１０２を介して、作業することになる。

既存単語修正モジュール６２は、修正すべき項目（表記、読み、品詞など）を修正したうえ、既存単語を上書きして、言語モデル３２０を更新する。

新規単語登録モジュール６３では、入力された単語の表記、読み、品詞などの項目に加え、統計情報も付与してから、言語モデル３２０を更新する。なお、音声認識ユーザ辞書に登録する統計情報とは、単語の出現確率を表すＮ－ｇｒａｍ等の周知又は公知の値を使用することができるが、音声認識部３０に依存するものなので、本実施例１ではこれに限定されない。

登録単語に付与する統計情報は、認識しやすくするための統計値を事前に用意し、すべての新規登録単語に対して、この統計値を利用する方法が考えられる。しかし、このような登録方法だと、従来正しく認識した音声に対しても影響し、ドメインテキスト以外の発話の認識率が下がることもある。

この問題を解決するために、より文脈を考慮した音声認識を実現する必要がある。例えば、言語モデル３２０に登録する単語の「使い方の近い単語」を指定し、その単語の統計情報を用いることができる。

一例では、「Ａ商店」を新規単語として登録しようとした場合は、音声認識の言語モデル３２０に含まれている「Ｂ商店」の統計情報を用いて登録することができる。「使い方の近い単語」はユーザが指定してもよいが、ウェブでの自動検索やＷｏｒｄ２Ｖｅｃのような単語距離を算出する手法を使っててもよい。いずれの手法を用いるのかについては、本実施例１では限定しない。なお、「使い方の近い単語」は、単語のカテゴリ（例えば、商店名）が類似する単語で構成することができる。

なお、上記では単語存在確認モジュール６１は、言語モデル３２０に未知語が登録されていない場合は未知語の登録をユーザに依頼する例を示したが、これに限定されるものではない。例えば、単語存在確認モジュール６１は、未知語が言語モデル３２０に登録されていない場合には、新規単語登録モジュール６３に未知語の登録を指令して、自動的に未知語を登録するようにしてもよい。

以上のように、本実施例の未知語自動検出装置１００では、テキストが存在する場合、音声合成部２０を用いて、音声合成した後、音声認識部３０でテキスト化して、入力テキストと出力テキストの差異を出力し、音声認識辞書３００に登録すべき単語（未知語）を作業者に提示することが可能となる。

音声認識部３０と同様に音声合成部２０でも同じく未知語の問題が存在する。ただし、本実施例では、未知語に対して、音声合成部２０は表記から発音を推測するのに対して、音声認識部３０は発音（音素配列）から既知の単語配列６１０を生成するため、検出された未知語は必ず音声合成部２０に登録する必要はない。

実施例２では、実施例１と同じく、ユーザの用意したドメインテキストから、音声合成部２０を利用した音声認識部３０での未知語の自動検出を行い、登録語候補を提示することを想定した構成を説明する。なお、未知語自動検出装置１００の構成は、前記実施例１と同様である。

図９は、実施例２の未知語自動検出装置１００の機能の一例を説明する図である。以下では、実施例１と差異のある音声合成ユーザ辞書登録部５０とテキスト変換部３２について説明する。

図１０は、音声合成部２０の処理を説明する図である。前記実施例１では、音素配列生成モジュール２４から生成された音素配列５３０をテキスト変換部３２に出力していたが、実施例２では、音声波形生成モジュール２５で合成された音声５４０をテキスト変換部３２に出力する。それ以外の処理は前記実施例１と同様である。

図１１は、実施例２のテキスト変換部３２の処理を説明する図である。音声認識部３０は、音響モデル３１０を用いて、入力された音声５４０から音素に変換する音素配列変換モジュール３２２が追加された点が前記実施例１と相違する。音素配列変換モジュール３２２は、音声認識システムにおいて周知又は公知の技術であるため、ここでは詳細の説明を省略する。

実施例２が、実施例１と機能的に相違する点を説明する。実施例１はテキスト変換部３２に音素配列５３０を入力することにより、音声認識の音響モデル３１０の影響を受けずに、音声認識の言語モデル３２０のみを評価（テスト）することができる。

その一方、音声合成部２０と音声認識部３０の音素定義の違いを吸収する必要がある。例えば、「後押し」という単語では、音声合成部２０から出力する音素配列５３０が「アトーシ」になっていることに対して、音声認識部３０では「アトオシ」として登録されているため、「後押し」の単語は探索候補から外れる。特に、異なるメーカーの音声合成システムを利用した場合は、音素定義の違いによる未知語の誤検出が顕著となる場合がある。

そこで、実施例２では、合成した音声５４０をテキスト変換モジュール３２１に入力するため、音声合成部２０と音声認識部３０の音素の定義の違いを吸収することが可能となる。

そのため、実施例２では、音声認識部３０と異なるメーカーの音声合成部２０も利用することが可能となる。さらに、複数メーカーの音声合成エンジンを同時に利用することにより、多数決により、さらに精度の高い未知語の検出が可能となる。

図１２は、実施例３の未知語自動検出装置１００の構成の一例を説明するブロック図である。

前記実施例１のように未知語の検出にすべての機能を１つのデバイスだけで実現してもよいが、図１２に示すように、複数の端末１１０１－１～１１００－Ｎとサーバ１００１で構成することができる。

サーバ１００１は、ＣＰＵ１００２と、メモリ１００３と、通信Ｉ／Ｆ１００４と、記憶装置１００５をバス１００６で相互に接続する。メモリ１００３と記憶装置１００５は、前記実施例１の未知語自動検出装置１００と同様に未知語の検出を実施する。

サーバ１００１は、ネットワーク１００７を介して端末１１０１－１～１１００－Ｎに接続される。

端末１１０１－１は、ＣＰＵ１１０１と、メモリ１１０２と、通信Ｉ／Ｆ１１０４と、音声出力Ｉ／Ｆ１１０３と、テキスト入力Ｉ／Ｆ１１０５と、テキスト提示Ｉ／Ｆ１１０６を有する。端末１１０１－２～Ｎも同様の構成であり、前記実施例１に示したように登録する単語の確認や修正を実施する。なお、サーバ１００１は、前記実施例１の未知語自動検出装置１００の機能の全部もしくは一部を実現すればよい。

＜結び＞
以上のように、上記実施例１～３の未知語自動検出装置１００は、以下のような構成とすることができる。

（１）プロセッサ（ＣＰＵ１０３）とメモリ（１０４）を有する計算機（１００）が、入力テキスト（１１）から未知語を検出する未知語検出方法であって、前記計算機が、前記入力テキスト（１１）を音素配列（５３０）に変換する音素変換ステップ（音声合成部２０）と、前記計算機が、前記音素配列（５３０）を受け付けて、予め設定された言語モデル（３２０）を参照して前記音素配列（５３０）を出力テキスト（単語配列６１０）に変換する認識ステップ（音声認識部３０）と、前記入力テキスト（１１）と上記変換された前記出力テキスト（６１０）を比較して未知語を検出する未知語検出ステップ（未知語検出部４０）と、を含むことを特徴とする未知語検出方法。

上記構成により、未知語自動検出装置１００は、入力テキスト１１を音素配列５３０に変換してから、言語モデル３２０を用いて音素配列５３０を単語配列６１０（出力テキスト）に変換し、入力テキスト１１と単語配列６１０を比較して、言語モデル３２０で認識できない単語を未知語として自動的に検出することが可能となる。これにより、入力テキスト１１から言語モデル３２０に登録すべき未知語を自動的にユーザに提示することが可能となって、音声認識部３０を使用するユーザの負担を減らす効果がある。

（２）上記（１）に記載の未知語検出方法であって、前記計算機が、前記未知語を言語モデル（３２０）に登録する単語登録ステップ（音声認識ユーザ辞書登録部６０）を、さらに含むことを特徴とする未知語検出方法。

上記構成により、未知語自動検出装置１００は、自動的に検出した未知語を言語モデル３２０に登録することで、音声認識部３０の認識精度を向上させることが可能となる。

（３）上記（１）に記載の未知語検出方法であって、前記音素変換ステップ（２０）では、音声合成によって前記入力テキスト（１１）を音素配列（５３０）に変換することを特徴とする未知語検出方法。

上記構成により、未知語自動検出装置１００は、音声合成部２０は表記から発音を推測するのに対して、音声認識部３０は発音（音素配列）から既知の単語配列６１０を生成するため、検出された未知語は必ず音声合成部２０に登録する必要はない。これにより、音声認識部３０のメンテナンスを行うことなく、言語モデル３２０のチューンを行うことが可能となる。

（４）上記（１）に記載の未知語検出方法であって、前記音素変換ステップ（２０）では、所定のポーズに囲まれるフレーズ単位に区切られた音素配列（５３０）を出力することを特徴とする未知語検出方法。

長ポーズの前後は、文脈的につながりが弱く、長ポーズで区切られているフレーズ区間が音声認識の区間となることが多い。そこで、未知語自動検出装置１００は、音声認識部３０の特徴を考慮して、フレーズ単位での未知語検出を行う。これにより、音声認識部３０がフレーズを跨いだ候補単語列の検索を防げることができ、未知語に起因しない認識エラーを防止できる。

（５）上記（３）に記載の未知語検出方法であって、前記音声合成では、形態素解析（２２）によって前記入力テキスト（１１）を形態素配列（５１０）に変換するステップと、予め設定した音声合成辞書（２１０）で前記形態素配列（５１０）を前記音素配列（５３０）に変換するステップを含み、前記音声合成辞書（２１０）は、前記言語モデル（３２０）とは異なる手法で構成されたことを特徴とする未知語検出方法。

同じ形態素解析を用いて学習した音声認識の言語モデル３２０は、未知語を既知の単語配列に変換する可能性があるので、未知語の検出ができない場合がある。しかし、音声合成部２０の形態素解析モジュール２２及び形態素辞書２２０と、音声認識部３０の形態素解析が異なる場合は、未知語を既知の単語配列に変換される可能性が低くなり、未知語の検出率を向上させることができる。

（６）上記（１）に記載の未知語検出方法であって、前記単語登録ステップ（６０）では、前記言語モデル（３２０）に前記未知語を登録する際には、使用方法が類似する単語の統計情報を当該未知語の統計情報として登録することを特徴とする未知語検出方法。

上記構成により、未知語自動検出装置１００は、統計情報（出現確率）を用いることで、より文脈を考慮した音声認識を実現することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０テキスト入力部
２０音声合成部
３０音声認識部
４０未知語検出部
５０音声合成ユーザ辞書登録部
６０音声認識ユーザ辞書登録部
１００未知語自動検出装置
１０１記憶装置
１０２テキスト入力Ｉ／Ｆ
１０３ＣＰＵ
１０４メモリ
１０５音声出力Ｉ／Ｆ
１０６テキスト提示Ｉ／Ｆ
２１０音声合成辞書
２２０形態素辞書
２３０フレーズ辞書
３１０音響モデル
３２０言語モデル

Claims

プロセッサとメモリを有する計算機が、入力テキストから未知語を検出する未知語検出方法であって、
前記計算機が、前記入力テキストを音素配列に変換する音素変換ステップと、
前記計算機が、前記音素配列を受け付けて、予め設定された言語モデルを参照して前記音素配列を出力テキストに変換する認識ステップと、
前記計算機が、前記入力テキストと上記変換された前記出力テキストを比較して未知語を検出する未知語検出ステップと、
を含み、
前記音素変換ステップは、
形態素解析によって前記入力テキストを、同形異音語の形態素配列を含む、形態素配列に変換するステップと、
変換された前記形態素配列を、所定のポーズに囲まれるフレーズ単位に切り出してフレーズ単位の形態素配列を生成するステップと、
前記フレーズ単位の形態素配列から、前記フレーズ単位の音素配列を生成するステップと、
前記フレーズ単位の音素配列に対して音声合成を行って音声を生成するステップと、
前記音声を予め設定された音声モデルを参照して前記音素配列に変換するステップと、
を含むことを特徴とする未知語検出方法。
請求項１に記載の未知語検出方法であって、
前記計算機が、前記未知語を前記言語モデルに登録する単語登録ステップを、さらに含むことを特徴とする未知語検出方法。
請求項１に記載の未知語検出方法であって、
前記音素変換ステップでは、
予め設定した音声合成辞書で前記形態素配列を前記音素配列に変換し、
前記音声合成辞書は、前記言語モデルとは異なる手法で構成されたことを特徴とする未知語検出方法。
請求項２に記載の未知語検出方法であって、
前記単語登録ステップでは、
前記言語モデルに前記未知語を登録する際には、使用方法が類似する単語の統計情報を当該未知語の統計情報として登録することを特徴とする未知語検出方法。
プロセッサとメモリを有し、入力テキストから未知語を検出する未知語検出装置であって、
前記入力テキストを音素配列に変換する音素変換部と、
前記音素配列を受け付けて、予め設定された言語モデルを参照して前記音素配列を出力テキストに変換する認識部と、
前記入力テキストと上記変換された前記出力テキストを比較して未知語を検出する未知語検出部と、
を有し、
前記音素変換部は、
形態素解析によって前記入力テキストを、同形異音語の形態素配列を含む、形態素配列に変換し、
変換された前記形態素配列を、所定のポーズに囲まれるフレーズ単位に切り出してフレーズ単位の形態素配列を生成し、
前記フレーズ単位の形態素配列から、前記フレーズ単位の音素配列を生成し、
前記フレーズ単位の音素配列に対して音声合成を行って音声を生成し、
前記音声を予め設定された音声モデルを参照して前記音素配列に変換することを特徴とする未知語検出装置。
請求項５に記載の未知語検出装置であって、
前記未知語を前記言語モデルに登録する単語登録部を、さらに有することを特徴とする未知語検出装置。
請求項５に記載の未知語検出装置であって、
前記音素変換部は、
予め設定した音声合成辞書で前記形態素配列を前記音素配列に変換し、前記音声合成辞書は、前記言語モデルとは異なる手法で構成されたことを特徴とする未知語検出装置。
請求項６に記載の未知語検出装置であって、
前記単語登録部は、
前記言語モデルに前記未知語を登録する際には、使用方法が類似する単語の統計情報を当該未知語の統計情報として登録することを特徴とする未知語検出装置。