JP2017097062A

JP2017097062A - 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム

Info

Publication number: JP2017097062A
Application number: JP2015226772A
Authority: JP
Inventors: 賢昭佐藤; Takaaki Sato; 孝中村; Takashi Nakamura
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2017-06-01
Anticipated expiration: 2035-11-19
Also published as: JP6599219B2

Abstract

【課題】読みがわからない単語に対して表層の情報のみから適切な読みを付与する。【解決手段】音素辞書記憶部２４は、文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を記憶する。読み候補展開部１６は、音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する。音声認識部１４は、音声認識辞書を用いて未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する。読み決定部１７は、音声認識結果の音素列と音素列候補それぞれとの類似度に基づいて未知語の読みを表す音素列を決定する。【選択図】図１

Description

この発明は、音声認識技術に関し、特に、音声認識辞書へ追加する単語に対して読みを自動で付与する技術に関する。

単語に適切な読みを付与する技術として、例えば、特許文献１に記載された読み付与技術がある。特許文献１に記載の読み付与装置は、入力された読み付与単位列に対して、以下のようにして適切な読みを付与する。事前に、読み付与単位の読みとこれに対応する読み種別を記憶した読み種別テーブルと、少なくとも読み種別を含む情報と読み付与対象単位の読みとの対応関係を複数の学習データから学習した読み付与規則を記憶した読み付与規則テーブルとを用意しておく。まず、入力となる読み付与単位列に対して、読み種別テーブルを用いて、読み付与単位ごとにその表記と読みとに対応する読み種別を付与する。次に、読み付与規則テーブルを用いて、読み付与単位の複数ある読みのうちいずれを付与するかを判定し、読み付与単位ごとに判定結果の読みを付与して出力する。

音声認識の応用技術として、例えば、会議で発せられる音声を録音しておき、その音声データを音声認識によって文字列に変換し、テキスト検索などを利用して会議の内容を簡単に振り返ることができるようなシステムが考えられる。このような用途では、会議で出てくる一般的には使われないような専門用語や社内用語を音声認識できる必要がある。この目的を達成する技術として、例えば、「ＡＩ部」という部署があったとき、「単語＝ＡＩ部／読み＝エーアイブ」というように単語と読みの組を音声認識システムに入力することで、音声認識辞書にこの単語を追加して音声認識可能とする単語追加技術が存在する。

特開２００５−３２２１３８号公報

例えば、会議で出てくる専門用語や社内用語を音声認識辞書に追加したい場合、人手でいちいち登録するのは労力がかかる。そこで、会議で用いるプレゼンテーションソフトやワープロソフトなどの資料をアップロードすることで、その資料内に出てくる単語をすべて抽出して追加できれば、このような労力をかけずに大量の専門用語や社内用語を追加でき、利便性が高い。しかしながら、従来の単語追加技術では単語とともに読みを付与しなければいけない。通常、資料には、例えば「ＡＩ部」といった表層の情報のみしか存在しないため、正しい読みがわからないという点が問題となる。

この発明の目的は、このような点を鑑みて、読みがわからない単語に対して表層の情報のみから適切な読みを付与することができる読み付与技術を提供することである。

上記の課題を解決するために、この発明の第一の態様の読み付与装置は、文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する読み候補展開部と、音声認識辞書を用いて未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する音声認識部と、音声認識結果の音素列と音素列候補それぞれとの類似度に基づいて未知語の読みを表す音素列を決定する読み決定部と、を含む。

この発明の第二の態様の音声認識装置は、第一の態様の読み付与装置が出力する未知語とその未知語の読みを表す音素列とが追加された音声認識辞書を記憶する認識辞書記憶部と、音声認識辞書を用いて入力音声データを音声認識する音声認識部と、を含む。

この発明の読み付与技術によれば、読みがわからない単語に対して表層の情報のみから適切な読みを付与することができる。

図１は、読み付与装置の機能構成を例示する図である。図２は、読み付与方法の処理手続きを例示する図である。図３は、音声認識装置の機能構成を例示する図である。図４は、音声認識方法の処理手続きを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

この発明の読み付与技術は、読みのわからない単語の表層から考えられる読みをすべて列挙し、その中から音声データに同じもしくは似た音が出現する読みを最終的な未知語の読みとして決定する。具体的な例でいえば、「TAC」という単語があったとき、これが「takku」と読むのか「thi-e-si-」と読むのかがわからないとする。音声データを音声認識して音素系列を得て、thi-e-si-に比べてtakkuという並びと同じもしくは似たものが出てくるならば、takkuの方が正しいであろうという考えに基づく。

［読み付与装置］
実施形態の読み付与装置は、読みがわからない未知語を含む文書データとその未知語を含む発話を収録した音声データとを入力として、文書データ中の未知語とその未知語の適切な読みとを対応付けた読み情報を出力する情報処理装置である。この読み付与装置は、図１に示すように、テキスト抽出部１１、形態素解析部１２、未知語抽出部１３、音声認識部１４、対象単語選択部１５、読み候補展開部１６、読み決定部１７、解析辞書記憶部２１、解析結果記憶部２２、認識辞書記憶部２３、音素辞書記憶部２４、および認識結果記憶部２５を含む。この読み付与装置が後述する各ステップの処理を行うことにより実施形態の読み付与方法が実現される。

読み付与装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。読み付与装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。読み付与装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、読み付与装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。読み付与装置の各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

解析辞書記憶部２１には、形態素解析に用いる形態素辞書が記憶されている。この形態素辞書には、複数の単語にそれぞれの品詞や読みなどが関連付けられて登録されている。この実施形態では、少なくとも単語と読みが対応付けられて登録されているものとする。

認識辞書記憶部２３には、音声認識に用いる音声認識辞書が記憶されている。この音声認識辞書には、複数の単語にそれぞれの読みを表す音素などが関連付けられて登録されている。

音素辞書記憶部２４には、複数の文字列とその文字列が取り得る読みを表す１個以上の音素とが対応付けられた音素辞書が記憶されている。

図２を参照して、実施形態の読み付与方法の処理手続きを説明する。なお、ステップＳ５〜Ｓ６は、ステップＳ１〜Ｓ４、Ｓ７〜Ｓ８と並列的に実行することができる。

ステップＳ１において、読み付与装置へ文書データが入力される。入力された文書データはテキスト抽出部１１へ送られる。この文書データは、認識辞書記憶部２３に記憶された音声認識辞書に登録されていない未知語を含むものである。具体的には、例えば、プレゼンテーションソフトやワープロソフト等の文書作成手段により作成した、専門用語や社内用語など一般的ではない単語が含まれる会議資料などである。

ステップＳ２において、テキスト抽出部１１は、入力文書データからテキストデータを抽出する。抽出したテキストデータは形態素解析部１２へ送られる。例えば、文書データが会議の配布資料である場合には、「前回ＡＩ部でＨＩ案件を議論し、」といったテキストデータが抽出される。

ステップＳ３において、形態素解析部１２は、解析辞書記憶部２１に記憶された形態素辞書を用いて、テキスト抽出部１１が出力するテキストデータを形態素解析する。形態素解析結果は未知語抽出部１３へ送られる。形態素解析とは、文が与えられたときに、その分を単語に区切る処理である。これは、例えばJTAGやMecabなどの一般的な形態素解析ツールを用いればよい。この実施形態の形態素解析結果では、各単語にその単語の読みが対応付けられているものとする。例えば、テキストデータが「前回ＡＩ部でＨＩ案件を議論し、」であった場合、形態素解析結果は、以下のような情報となる。

単語＝前回／読み＝ゼンカイ
単語＝Ａ／読み＝エー
単語＝Ｉ／読み＝アイ
単語＝部／読み＝ブ
単語＝で／読み＝デ
単語＝Ｈ／読み＝エイチ
単語＝Ｉ／読み＝アイ
単語＝案件／読み＝アンケン
単語＝を／読み＝ヲ
単語＝議論／読み＝ギロン
単語＝し／読み＝シ

ステップＳ４において、未知語抽出部１３は、形態素解析部１２が出力する形態素解析結果から所定の閾値以上の回数繰り返して出現する単語のつながりを抽出し、抽出された単語群を１つの単語として、各単語が未知語であるか否かを示す未知語フラグを付与する。未知語フラグが付与された形態素解析結果は解析結果記憶部２２へ記憶される。例えば、「ＡＩ部」が部署名だとすると、資料の中に「Ａ」「Ｉ」「部」という一連のつながりが複数回出現する可能性が高い。このような単語の一連のつながりが資料内に一定回数以上出現する場合、形態素解析で３つの単語として個別に抽出されていた単語を連結して、新たに「単語＝ＡＩ部／読み＝エーアイブ」とする。この単語は、形態素解析により一つの単語として抽出されなかったものであるから、未知語であることを示す未知語フラグを付与することとする。

以下、未知語の抽出方法について、より詳しく説明する。まず、形態素辞書を用いて単語を分割する。例えば、テキストデータが「前回ＡＩ部で・・・」であれば、「ＡＩ部」は形態素辞書に登録されていないため、「前回」「Ａ」「Ｉ」「部」「で」と分割される。その後、各単語がテキストデータ中で何回出現するかを計数する。例えば、以下のような結果となったものとする。

「前回」・・・10回
「Ａ」・・・・ 2回
「Ｉ」・・・・ 3回
「部」・・・・ 2回
「で」・・・・50回

この頻度表に基づいて、各単語の確率を計算する。この確率は、頻度を全単語数で割ったものとする。例えば、テキストデータ中の全単語数が10,000だったとすると、以下のような結果となる。この単語リストを※とする。

「前回」・・・0.001
「Ａ」・・・・0.0002
「Ｉ」・・・・0.0003
「部」・・・・0.0002
「で」・・・・0.005

この単語リスト※に関して、１単語目と２単語目の単語どうしを結合した新たな単語を考える。上記の例では、１単語目と２単語目を結合した「前回Ａ」が新単語として定義される。このような「前回Ａ」という単語がテキストデータ中の別の箇所に存在する場合は、それも同様に「前回Ａ」であると定義する。このようにして、テキストデータを単語に分け、各単語について頻度を算出する。ここでは、例えば、以下のような結果となったものとする。

「前回Ａ」・・ 1回
「Ｉ」・・・・ 3回
「部」・・・・ 2回
「で」・・・・50回

この頻度表に基づいて、各単語の確率を再度計算する。ここでは、テキストデータ中の全単語数を10,000としたため、以下のような結果となる。この単語リストを＊とする。

「前回Ａ」・・0.0001
「Ｉ」・・・・0.0003
「部」・・・・0.0002
「で」・・・・0.005

この確率表に関して、次式により、記述長（エントロピー）を計算する。ここで、p_iは各単語の確率値であり、nは単語数である。

前回の単語リスト※と新しい単語リスト＊のそれぞれについてエントロピーを計算し、その増加量を計算する。

同様にして、２単語目と３単語目を結合した単語リストについて、結合する前と後のエントロピーの増加量を計算する。全単語がＮ単語目まであるならば、Ｎ−１単語目とＮ単語目とを結合した単語についてまで同様にエントロピーの増加量を計算する。このうち、エントロピーの増加量が最小となるようなｉ単語目とｉ＋１単語目を結合した単語リストを新たな単語リストとする。

上記の計算をあらかじめ人手で与えた回数（例えば1,000,000回）行い、最終的な単語リストを得る。この単語リストの単語のうち、元の形態素辞書に存在しない単語群に対して、未知語であることを示す未知語フラグを付与して、形態素解析結果を出力する。

ここで説明した未知語抽出方法については、下記参考文献１に詳しく記載されている。
〔参考文献１〕松原勇介, 秋葉友良, 辻井潤一, 「最小記述長原理に基づいた日本語話し言葉の単語分割」, 言語処理学会第13回年次大会発表論文集（NLP2007）, 2007年
ステップＳ５において、読み付与装置へ、音声データが入力される。入力された音声データは音声認識部１４へ送られる。この音声データは、未知語を含む発話が収録されたものである。具体的には、例えば、上記の文書データを資料として開催された会議の音声をボイスレコーダ等の録音手段により収録した音声ファイル（例えば、WAV形式やPCM形式）などである。

ステップＳ６において、音声認識部１４は、認識辞書記憶部２３に記憶された音声認識辞書を用いて、入力音声データを音声認識する。音声認識結果は認識結果記憶部２５へ記憶される。この音声認識辞書には、認識された単語とその単語に対応する音素が含まれる。例えば、音声データの中に、
「今日はＡＩ部で例の案件について話し合いました」
という発話が収録されていたとし、その音声認識結果が、
「今日は敬愛部で例の案件について話し合いました」
となったとする。この音声認識結果の文における「敬愛部」の部分は、音声認識の際に「ＡＩ部」という単語が登録されていなかったために、誤って認識された結果である。これに加えて、音声認識では音素情報も同時に得ることができる。音声データのすべての発話に対して音声認識を行い、
「kyouhakeiaibudereinoankennituitehanasiaimasita」
という音素列データが得られる。

ステップＳ７において、対象単語選択部１５は、解析結果記憶部２２に記憶された形態素解析結果から未知語であることを示す未知語フラグが付与された単語を抽出し、その抽出した単語が認識辞書記憶部２３に記憶された音声認識辞書に登録されているかどうかを判定する。未知語フラグが付与され、かつ、音声認識辞書に登録されていない単語は、読みを付与する対象の未知語として読み候補展開部１６に送られる。例えば、上記の例では、「ＡＩ部」「ＨＩ案件」という単語のリストが読み候補展開部１６へ送られる。

ステップＳ８において、読み候補展開部１６は、音素辞書記憶部２４に記憶された音素辞書を用いて、入力された未知語それぞれに対して、その未知語が取り得る読みを表す音素列候補を生成する。この音素辞書は、文字列（１文字も含む）とその文字列が取り得る読みを表す音素とが対応付けられて登録されている。音素列候補の生成は、未知語に含まれる各文字列に対応する音素を音素辞書から抽出し、その音素のすべての組み合わせを生成することで行う。例えば、音素辞書に以下のように登録されているとする。

文字「Ｈ」／音素「eichi」「ecchi」
文字「Ｉ」／音素「ai」「i」
文字列「案件」／音素「anken」
文字列「ＨＩ」／音素「hi」「hai」
このとき、単語「ＨＩ案件」については以下の音素列候補が作成される。

eichi ai anken
ecchi ai anken
eichi i anken
ecchi i anken
hi anken
hai anken

日本語文字については形態素解析によって読みが付与されているため、その読みをそのまま用いるようにしても構わない。このとき、アルファベット部分の読み方は、以下の３通りの方法のいずれかにより付与すればよい。

一つ目の方法は、各文字１文字ずつ読みをそのまま付与する方法である。例えば、「Ｈ」は「エッチ」、「エイチ」の２通りの読みが考えられるため、「ＨＩ案件」は「エッチアイアンケン」、「エイチアイアンケン」という読みが考えられる。

二つ目の方法は、平仮名のように読める場合に平仮名のように読む方法である。例えば、「ＨＩ案件」は「ヒアンケン」という読みが考えられる。

三つ目の方法は、連続するアルファベットが英語の単語として存在する場合にその英語の片仮名読みを付与する方法である。例えば、「ＨＩ案件」は「ハイアンケン」という読みが考えられる。そして、これらの読みの全候補を音素列に変換する。例えば、「エイチアイアンケン」であれば、「eichiaianken」となる。

ステップＳ９において、読み決定部１７は、認識結果記憶部２５に記憶された音声認識結果の音素列と、読み候補展開部１６が出力する音素列候補それぞれとの類似度を計算し、最も類似している音素列候補をその未知語の読みを表す音素列として決定する。未知語とその未知語の読みを表す音素列は対応付けられて読み情報として出力される。

以下、読みの決定方法について、より詳しく説明する。例えば、音声データの全発話の音素列から「eichiaianken」と同一または類似の読みがあるか否かを検索する。具体的には、文頭から順に正規化編集距離を算出する。正規化編集距離とは、二つの文字列を比べてそれらがどれだけ異なるかを計算した値である。正規化編集距離は、例えば、ＤＰマッチングというアルゴリズムを用いて計算することができる。

正規化編集距離について、具体例を用いて説明する。ここでは、「sakana」（魚）と「akinai」（飽きない）の間の正規化編集距離を考える。編集距離は、一方の単語列をもう片方の単語列に変換する際に必要な文字の編集操作（削除、置換、挿入の３操作）の回数である。「sakana」を「akinai」に変換するには、以下のとおり３回の操作が必要なので、編集距離は３である。

sakana
→akana（sを削除）
→akina（aをiに変換）
→akinai（iを挿入）

正規化編集距離はこの編集距離を２つの文字列の長さの積で割ったものである。「sakana」の文字数は６、「akinai」の文字数は６であるため、正規化編集距離は、３÷（６×６）＝１／１２となる。

例えば、音声データの発話内容とその音声認識結果の音素系列とが以下のようになっているとする。

発話内容：「ＨＩ案件について今日話したいことがあるんだけど・・・」
認識結果：「英知相案件について今日話したいことがあるんだけど・・・」
音素系列：「eichiwaiankennitsuitehanaitaikotogaarundakedo・・・」

この音素系列に対して、単語の読み候補である「eichiaianken」を検索する。音素系列の先頭から１文字ずつずらして１２文字の単語を得る。その単語と１２文字の単語の間の正規化編集距離を計算する。例えば、
eichiwaianke（１文字目から１２文字目）とeichiaianken
ichiwaianken（２文字目から１３文字目）とeichiaianken
chiwaiankenn（３文字目から１４文字目）とeichiaianken
・・・
の間で編集距離を計算する。このようにして、「eichiaianken」との間で一番小さかった編集距離を保存しておく。次に、他のすべての読み候補（この例では、エッチアイアンケン→ecchiaianken）についても、同じ方法で編集距離の最小値を計算する。このすべての編集距離最小値の中でさらに最小値を与えた読み系列を最終的な読みとして決定し、出力する。例えば、
eichiaiankenについて編集距離の最小値は０（eichiaiankenとの距離）
ecchiaiankenについて編集距離の最小値は２／１３（eichiaiankenとの距離）
である。この中で最小（音声データにより読みが近いものが存在する）の０を取る「eichiaianken」が正解の読みである確率が高いとされ、こちらが正解の読みとして出力される。

この際に問題となるのが次のような場合である。「ＡＩ部」について「エーアイブ」、「アイブ」の２つの読み候補があるとする。音声認識の結果で得られた音素列データに「eichiaibu」という文字列が含まれていたとすると、どちらの読み候補も編集距離は０と計算される。これは、「アイブ」が「エーアイブ」の部分的な文字列だからである。この場合、音素列が長い方の編集距離が０となる場合の方が明らかに珍しい（長いほどマッチする確率は下がる）ため、これを正解の読みとして選択することとする。

ステップＳ１０において、読み付与装置は、読み決定部１７が出力する読み情報を出力する。

［変形例１］
音素列の編集距離を計算する際、着目している音素系列の未知語らしさを定義し、これを編集距離計算に導入することができる。ここで、未知語らしさの確率値は０以上１以下の実数であるとする。例えば、音声データの方に、
「ここはミルクがほしいところだ」
という発話が出現し、これを音声認識した結果、
「ココアミルクがほしいところだ」
となったとする。このうち「amirukuga」という音素列が未知語らしさの高い系列だとわかれば、未知語の読みを検索するときに、この部分を重要視することが有効になるはずである。ここで、この未知語らしさを、音としては合っているが言語としては間違っている部分とする狙いから、音素列全体としての音素確率と言語尤度を計算し、その乖離の度合いから計算することとする。

まず、音素列全体としての音素確率を定義する。これは、n文字の音素それぞれに計算された確率（p₁, p₂, p₃, …, p_n）に対し、その平均を次式により計算する。

ここで、音声認識結果の各文字の音素確率の値が以下のようになっていたとする。

a→0.7
m→0.5
i→0.5
r→0.3
u→0.95
k→0.7
u→0.6
g→0.7
a→0.5
このとき、この音素列全体としての音素確率は、次式のように0.579と定義される。

次に、音素列全体としての言語尤度を、音声認識結果から得られる各単語の言語尤度を参考に定義する。各単語の言語尤度が以下のようになっていたとする。

ココア→0.6
ミルク→0.9
が→0.7
ほしい→0.95
ところ→0.8
だ→0.92

このとき、音素列全体としての言語尤度は、「ココアミルクがほしいところだ」の音素列「kokoamirukugahosiitokoroda」のうち、「amirukuga」がまたがっている各単語の言語尤度（「ココア（kokoa）→0.6」、「ミルク（miruku）→0.9」、「が（ga）→0.7」）を考慮して、次式のように0.723と定義される。

この音素列全体としての確率値が、音として正解している確率は高いが言語として正解している確率は低いということになれば、そこが実は未知語である可能性が高いと判断される。よって、この音素列全体としての未知語らしさを、「音素列全体としての言語尤度を音素列全体としての音素確率で割ったもの」と定義する。例えば、上記の例では、0.723÷0.579＝1.25と計算される。

このようにして計算された未知語らしさで上述した正規化編集距離を割ることによって、新たな正規化編集距離とする。これにより、より適切な音素列を未知語の読みとして決定することができる。

［変形例２］
一般的に音声認識では、単語ごとに「信頼度」と呼ばれる認識結果の確からしさを表す確率値が出力される。この信頼度を用いて、未知語らしさを計算することができる。

例えば、
「ここはミルクがほしいところだ」
と発話し、これを音声認識した結果、
「ココアミルクがほしいところだ」
となったとする。このとき、各単語の信頼度は、例えば、
ココア→0.6
ミルク→0.9
が→0.7
ほしい→0.95
ところ→0.8
だ→0.92
と出力される。

このとき、音素列全体としての信頼度は、「ココアミルクがほしいところだ」の音素列「kokoamirukugahosiitokoroda」のうち、「amirukuga」がまたがっている各単語の信頼度（「ココア（kokoa）→0.6」、「ミルク（miruku）→0.9」、「が（ga）→0.7」）を考慮して、次式のように0.723と定義される。

［音声認識装置］
実施形態の音声認識装置は、読み付与装置により出力された未知語とその未知語の読みを表す情報とが追加された音声認識辞書を用いて、入力された音声データの音声認識を行う情報処理装置である。この音声認識装置は、図３に示すように、音声認識部１４、および認識辞書記憶部２３を含む。この音声認識装置が後述する各ステップの処理を行うことにより実施形態の音声認識方法が実現される。

認識辞書記憶部２３には、音声認識に用いる音声認識辞書が記憶されている。この音声認識辞書には、上述の読み付与装置が出力する未知語とその未知語の読みを表す音素列とが関連付けられて追加されている。

図４を参照して、実施形態の音声認識方法の処理手続きを説明する。

ステップＳ１１において、音声認識装置へ、音声認識対象の音声データが入力される。入力された音声データは音声認識部１４へ送られる。

ステップＳ１２において、音声認識部１４は、認識辞書記憶部２３へ記憶された音声認識辞書を用いて、入力音声データを音声認識し、音声認識結果を出力する。この音声認識辞書には未知語の読み情報がすでに登録されているため、入力音声データに未知語が含まれていても認識することが可能である。

ステップＳ１３において、音声認識装置は、音声認識部１４が出力する音声認識結果を出力する。

上述のように構成することにより、この発明の読み付与技術では、読みがわからない単語について考えられる読みをすべて列挙し、その単語を含む発話の音声認識結果から同じもしくは類似する音素列が出現する読みを適切な読みとして決定する。これにより、辞書に追加したい単語に対して人手で読みを付与する必要がなく、単語の表層の情報のみから自動で適切な読みを付与することができる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１１テキスト抽出部
１２形態素解析部
１３未知語抽出部
１４音声認識部
１５対象単語選択部
１６読み候補展開部
１７読み決定部
２１解析辞書記憶部
２２解析結果記憶部
２３認識辞書記憶部
２４音素辞書記憶部
２５認識結果記憶部

Claims

文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する読み候補展開部と、
上記音声認識辞書を用いて上記未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する音声認識部と、
上記音声認識結果の音素列と上記音素列候補それぞれとの類似度に基づいて上記未知語の読みを表す音素列を決定する読み決定部と、
を含む読み付与装置。
請求項１に記載の読み付与装置であって、
上記音声認識部は、上記音声認識結果に各音素の音素確率と各単語の言語尤度とを含むものであり、
上記読み決定部は、上記音素確率と上記言語尤度とを用いて上記音声認識結果の音素列の未知語らしさを計算し、上記音声認識結果の音素列と上記音素列候補との編集距離を上記未知語らしさで割った値を上記類似度とするものである、
読み付与装置。
請求項１に記載の読み付与装置であって、
上記音声認識部は、上記音声認識結果に各単語の信頼度を含むものであり、
上記読み決定部は、上記信頼度を用いて上記音声認識結果の音素列の未知語らしさを計算し、上記音声認識結果の音素列と上記音素列候補との編集距離を上記未知語らしさで割った値を上記類似度とするものである、
読み付与装置。
請求項１から３のいずれかに記載の読み付与装置であって、
上記読み決定部は、上記音素列候補の中に上記音声認識結果の音素列との類似度が同一のものがあるときは、より長い音素列である音素列候補を上記未知語の読みを表す音素列とするものである、
読み付与装置。
請求項１から４のいずれかに記載の読み付与装置が出力する未知語とその未知語の読みを表す音素列とが追加された音声認識辞書を記憶する認識辞書記憶部と、
上記音声認識辞書を用いて入力音声データを音声認識する音声認識部と、
を含む音声認識装置。
読み候補展開部が、文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する読み候補展開ステップと、
音声認識部が、上記音声認識辞書を用いて上記未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する音声認識ステップと、
読み決定部が、上記音声認識結果の音素列と上記音素列候補それぞれとの類似度に基づいて上記未知語の読みを表す音素列を決定する読み決定ステップと、
を含む読み付与方法。
認識辞書記憶部に、請求項６に記載の読み付与方法が出力する未知語とその未知語の読みを表す音素列とが追加された音声認識辞書が記憶されており、
音声認識部が、上記音声認識辞書を用いて入力音声データを音声認識する音声認識ステップを含む、
音声認識方法。
請求項１から４のいずれかに記載の読み付与装置の各部としてコンピュータを機能させるためのプログラム。
請求項５に記載の音声認識装置の各部としてコンピュータを機能させるためのプログラム。