JP2017097062A - 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム - Google Patents

読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム Download PDF

Info

Publication number
JP2017097062A
JP2017097062A JP2015226772A JP2015226772A JP2017097062A JP 2017097062 A JP2017097062 A JP 2017097062A JP 2015226772 A JP2015226772 A JP 2015226772A JP 2015226772 A JP2015226772 A JP 2015226772A JP 2017097062 A JP2017097062 A JP 2017097062A
Authority
JP
Japan
Prior art keywords
reading
phoneme
speech recognition
word
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015226772A
Other languages
English (en)
Other versions
JP6599219B2 (ja
Inventor
賢昭 佐藤
Takaaki Sato
賢昭 佐藤
孝 中村
Takashi Nakamura
孝 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015226772A priority Critical patent/JP6599219B2/ja
Publication of JP2017097062A publication Critical patent/JP2017097062A/ja
Application granted granted Critical
Publication of JP6599219B2 publication Critical patent/JP6599219B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】読みがわからない単語に対して表層の情報のみから適切な読みを付与する。【解決手段】音素辞書記憶部24は、文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を記憶する。読み候補展開部16は、音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する。音声認識部14は、音声認識辞書を用いて未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する。読み決定部17は、音声認識結果の音素列と音素列候補それぞれとの類似度に基づいて未知語の読みを表す音素列を決定する。【選択図】図1

Description

この発明は、音声認識技術に関し、特に、音声認識辞書へ追加する単語に対して読みを自動で付与する技術に関する。
単語に適切な読みを付与する技術として、例えば、特許文献1に記載された読み付与技術がある。特許文献1に記載の読み付与装置は、入力された読み付与単位列に対して、以下のようにして適切な読みを付与する。事前に、読み付与単位の読みとこれに対応する読み種別を記憶した読み種別テーブルと、少なくとも読み種別を含む情報と読み付与対象単位の読みとの対応関係を複数の学習データから学習した読み付与規則を記憶した読み付与規則テーブルとを用意しておく。まず、入力となる読み付与単位列に対して、読み種別テーブルを用いて、読み付与単位ごとにその表記と読みとに対応する読み種別を付与する。次に、読み付与規則テーブルを用いて、読み付与単位の複数ある読みのうちいずれを付与するかを判定し、読み付与単位ごとに判定結果の読みを付与して出力する。
音声認識の応用技術として、例えば、会議で発せられる音声を録音しておき、その音声データを音声認識によって文字列に変換し、テキスト検索などを利用して会議の内容を簡単に振り返ることができるようなシステムが考えられる。このような用途では、会議で出てくる一般的には使われないような専門用語や社内用語を音声認識できる必要がある。この目的を達成する技術として、例えば、「AI部」という部署があったとき、「単語=AI部/読み=エーアイブ」というように単語と読みの組を音声認識システムに入力することで、音声認識辞書にこの単語を追加して音声認識可能とする単語追加技術が存在する。
特開2005−322138号公報
例えば、会議で出てくる専門用語や社内用語を音声認識辞書に追加したい場合、人手でいちいち登録するのは労力がかかる。そこで、会議で用いるプレゼンテーションソフトやワープロソフトなどの資料をアップロードすることで、その資料内に出てくる単語をすべて抽出して追加できれば、このような労力をかけずに大量の専門用語や社内用語を追加でき、利便性が高い。しかしながら、従来の単語追加技術では単語とともに読みを付与しなければいけない。通常、資料には、例えば「AI部」といった表層の情報のみしか存在しないため、正しい読みがわからないという点が問題となる。
この発明の目的は、このような点を鑑みて、読みがわからない単語に対して表層の情報のみから適切な読みを付与することができる読み付与技術を提供することである。
上記の課題を解決するために、この発明の第一の態様の読み付与装置は、文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する読み候補展開部と、音声認識辞書を用いて未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する音声認識部と、音声認識結果の音素列と音素列候補それぞれとの類似度に基づいて未知語の読みを表す音素列を決定する読み決定部と、を含む。
この発明の第二の態様の音声認識装置は、第一の態様の読み付与装置が出力する未知語とその未知語の読みを表す音素列とが追加された音声認識辞書を記憶する認識辞書記憶部と、音声認識辞書を用いて入力音声データを音声認識する音声認識部と、を含む。
この発明の読み付与技術によれば、読みがわからない単語に対して表層の情報のみから適切な読みを付与することができる。
図1は、読み付与装置の機能構成を例示する図である。 図2は、読み付与方法の処理手続きを例示する図である。 図3は、音声認識装置の機能構成を例示する図である。 図4は、音声認識方法の処理手続きを例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
この発明の読み付与技術は、読みのわからない単語の表層から考えられる読みをすべて列挙し、その中から音声データに同じもしくは似た音が出現する読みを最終的な未知語の読みとして決定する。具体的な例でいえば、「TAC」という単語があったとき、これが「takku」と読むのか「thi-e-si-」と読むのかがわからないとする。音声データを音声認識して音素系列を得て、thi-e-si-に比べてtakkuという並びと同じもしくは似たものが出てくるならば、takkuの方が正しいであろうという考えに基づく。
[読み付与装置]
実施形態の読み付与装置は、読みがわからない未知語を含む文書データとその未知語を含む発話を収録した音声データとを入力として、文書データ中の未知語とその未知語の適切な読みとを対応付けた読み情報を出力する情報処理装置である。この読み付与装置は、図1に示すように、テキスト抽出部11、形態素解析部12、未知語抽出部13、音声認識部14、対象単語選択部15、読み候補展開部16、読み決定部17、解析辞書記憶部21、解析結果記憶部22、認識辞書記憶部23、音素辞書記憶部24、および認識結果記憶部25を含む。この読み付与装置が後述する各ステップの処理を行うことにより実施形態の読み付与方法が実現される。
読み付与装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。読み付与装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。読み付与装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、読み付与装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。読み付与装置の各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
解析辞書記憶部21には、形態素解析に用いる形態素辞書が記憶されている。この形態素辞書には、複数の単語にそれぞれの品詞や読みなどが関連付けられて登録されている。この実施形態では、少なくとも単語と読みが対応付けられて登録されているものとする。
認識辞書記憶部23には、音声認識に用いる音声認識辞書が記憶されている。この音声認識辞書には、複数の単語にそれぞれの読みを表す音素などが関連付けられて登録されている。
音素辞書記憶部24には、複数の文字列とその文字列が取り得る読みを表す1個以上の音素とが対応付けられた音素辞書が記憶されている。
図2を参照して、実施形態の読み付与方法の処理手続きを説明する。なお、ステップS5〜S6は、ステップS1〜S4、S7〜S8と並列的に実行することができる。
ステップS1において、読み付与装置へ文書データが入力される。入力された文書データはテキスト抽出部11へ送られる。この文書データは、認識辞書記憶部23に記憶された音声認識辞書に登録されていない未知語を含むものである。具体的には、例えば、プレゼンテーションソフトやワープロソフト等の文書作成手段により作成した、専門用語や社内用語など一般的ではない単語が含まれる会議資料などである。
ステップS2において、テキスト抽出部11は、入力文書データからテキストデータを抽出する。抽出したテキストデータは形態素解析部12へ送られる。例えば、文書データが会議の配布資料である場合には、「前回AI部でHI案件を議論し、」といったテキストデータが抽出される。
ステップS3において、形態素解析部12は、解析辞書記憶部21に記憶された形態素辞書を用いて、テキスト抽出部11が出力するテキストデータを形態素解析する。形態素解析結果は未知語抽出部13へ送られる。形態素解析とは、文が与えられたときに、その分を単語に区切る処理である。これは、例えばJTAGやMecabなどの一般的な形態素解析ツールを用いればよい。この実施形態の形態素解析結果では、各単語にその単語の読みが対応付けられているものとする。例えば、テキストデータが「前回AI部でHI案件を議論し、」であった場合、形態素解析結果は、以下のような情報となる。
単語=前回/読み=ゼンカイ
単語=A/読み=エー
単語=I/読み=アイ
単語=部/読み=ブ
単語=で/読み=デ
単語=H/読み=エイチ
単語=I/読み=アイ
単語=案件/読み=アンケン
単語=を/読み=ヲ
単語=議論/読み=ギロン
単語=し/読み=シ
ステップS4において、未知語抽出部13は、形態素解析部12が出力する形態素解析結果から所定の閾値以上の回数繰り返して出現する単語のつながりを抽出し、抽出された単語群を1つの単語として、各単語が未知語であるか否かを示す未知語フラグを付与する。未知語フラグが付与された形態素解析結果は解析結果記憶部22へ記憶される。例えば、「AI部」が部署名だとすると、資料の中に「A」「I」「部」という一連のつながりが複数回出現する可能性が高い。このような単語の一連のつながりが資料内に一定回数以上出現する場合、形態素解析で3つの単語として個別に抽出されていた単語を連結して、新たに「単語=AI部/読み=エーアイブ」とする。この単語は、形態素解析により一つの単語として抽出されなかったものであるから、未知語であることを示す未知語フラグを付与することとする。
以下、未知語の抽出方法について、より詳しく説明する。まず、形態素辞書を用いて単語を分割する。例えば、テキストデータが「前回AI部で・・・」であれば、「AI部」は形態素辞書に登録されていないため、「前回」「A」「I」「部」「で」と分割される。その後、各単語がテキストデータ中で何回出現するかを計数する。例えば、以下のような結果となったものとする。
「前回」・・・10回
「A」・・・・ 2回
「I」・・・・ 3回
「部」・・・・ 2回
「で」・・・・50回
この頻度表に基づいて、各単語の確率を計算する。この確率は、頻度を全単語数で割ったものとする。例えば、テキストデータ中の全単語数が10,000だったとすると、以下のような結果となる。この単語リストを※とする。
「前回」・・・0.001
「A」・・・・0.0002
「I」・・・・0.0003
「部」・・・・0.0002
「で」・・・・0.005
この単語リスト※に関して、1単語目と2単語目の単語どうしを結合した新たな単語を考える。上記の例では、1単語目と2単語目を結合した「前回A」が新単語として定義される。このような「前回A」という単語がテキストデータ中の別の箇所に存在する場合は、それも同様に「前回A」であると定義する。このようにして、テキストデータを単語に分け、各単語について頻度を算出する。ここでは、例えば、以下のような結果となったものとする。
「前回A」・・ 1回
「I」・・・・ 3回
「部」・・・・ 2回
「で」・・・・50回
この頻度表に基づいて、各単語の確率を再度計算する。ここでは、テキストデータ中の全単語数を10,000としたため、以下のような結果となる。この単語リストを*とする。
「前回A」・・0.0001
「I」・・・・0.0003
「部」・・・・0.0002
「で」・・・・0.005
この確率表に関して、次式により、記述長(エントロピー)を計算する。ここで、piは各単語の確率値であり、nは単語数である。
Figure 2017097062
前回の単語リスト※と新しい単語リスト*のそれぞれについてエントロピーを計算し、その増加量を計算する。
同様にして、2単語目と3単語目を結合した単語リストについて、結合する前と後のエントロピーの増加量を計算する。全単語がN単語目まであるならば、N−1単語目とN単語目とを結合した単語についてまで同様にエントロピーの増加量を計算する。このうち、エントロピーの増加量が最小となるようなi単語目とi+1単語目を結合した単語リストを新たな単語リストとする。
上記の計算をあらかじめ人手で与えた回数(例えば1,000,000回)行い、最終的な単語リストを得る。この単語リストの単語のうち、元の形態素辞書に存在しない単語群に対して、未知語であることを示す未知語フラグを付与して、形態素解析結果を出力する。
ここで説明した未知語抽出方法については、下記参考文献1に詳しく記載されている。
〔参考文献1〕松原勇介, 秋葉友良, 辻井潤一, 「最小記述長原理に基づいた日本語話し言葉の単語分割」, 言語処理学会第13回年次大会発表論文集(NLP2007), 2007年
ステップS5において、読み付与装置へ、音声データが入力される。入力された音声データは音声認識部14へ送られる。この音声データは、未知語を含む発話が収録されたものである。具体的には、例えば、上記の文書データを資料として開催された会議の音声をボイスレコーダ等の録音手段により収録した音声ファイル(例えば、WAV形式やPCM形式)などである。
ステップS6において、音声認識部14は、認識辞書記憶部23に記憶された音声認識辞書を用いて、入力音声データを音声認識する。音声認識結果は認識結果記憶部25へ記憶される。この音声認識辞書には、認識された単語とその単語に対応する音素が含まれる。例えば、音声データの中に、
「今日はAI部で例の案件について話し合いました」
という発話が収録されていたとし、その音声認識結果が、
「今日は敬愛部で例の案件について話し合いました」
となったとする。この音声認識結果の文における「敬愛部」の部分は、音声認識の際に「AI部」という単語が登録されていなかったために、誤って認識された結果である。これに加えて、音声認識では音素情報も同時に得ることができる。音声データのすべての発話に対して音声認識を行い、
「kyouhakeiaibudereinoankennituitehanasiaimasita」
という音素列データが得られる。
ステップS7において、対象単語選択部15は、解析結果記憶部22に記憶された形態素解析結果から未知語であることを示す未知語フラグが付与された単語を抽出し、その抽出した単語が認識辞書記憶部23に記憶された音声認識辞書に登録されているかどうかを判定する。未知語フラグが付与され、かつ、音声認識辞書に登録されていない単語は、読みを付与する対象の未知語として読み候補展開部16に送られる。例えば、上記の例では、「AI部」「HI案件」という単語のリストが読み候補展開部16へ送られる。
ステップS8において、読み候補展開部16は、音素辞書記憶部24に記憶された音素辞書を用いて、入力された未知語それぞれに対して、その未知語が取り得る読みを表す音素列候補を生成する。この音素辞書は、文字列(1文字も含む)とその文字列が取り得る読みを表す音素とが対応付けられて登録されている。音素列候補の生成は、未知語に含まれる各文字列に対応する音素を音素辞書から抽出し、その音素のすべての組み合わせを生成することで行う。例えば、音素辞書に以下のように登録されているとする。
文字「H」/音素「eichi」「ecchi」
文字「I」/音素「ai」「i」
文字列「案件」/音素「anken」
文字列「HI」/音素「hi」「hai」
このとき、単語「HI案件」については以下の音素列候補が作成される。
eichi ai anken
ecchi ai anken
eichi i anken
ecchi i anken
hi anken
hai anken
日本語文字については形態素解析によって読みが付与されているため、その読みをそのまま用いるようにしても構わない。このとき、アルファベット部分の読み方は、以下の3通りの方法のいずれかにより付与すればよい。
一つ目の方法は、各文字1文字ずつ読みをそのまま付与する方法である。例えば、「H」は「エッチ」、「エイチ」の2通りの読みが考えられるため、「HI案件」は「エッチアイアンケン」、「エイチアイアンケン」という読みが考えられる。
二つ目の方法は、平仮名のように読める場合に平仮名のように読む方法である。例えば、「HI案件」は「ヒアンケン」という読みが考えられる。
三つ目の方法は、連続するアルファベットが英語の単語として存在する場合にその英語の片仮名読みを付与する方法である。例えば、「HI案件」は「ハイアンケン」という読みが考えられる。そして、これらの読みの全候補を音素列に変換する。例えば、「エイチアイアンケン」であれば、「eichiaianken」となる。
ステップS9において、読み決定部17は、認識結果記憶部25に記憶された音声認識結果の音素列と、読み候補展開部16が出力する音素列候補それぞれとの類似度を計算し、最も類似している音素列候補をその未知語の読みを表す音素列として決定する。未知語とその未知語の読みを表す音素列は対応付けられて読み情報として出力される。
以下、読みの決定方法について、より詳しく説明する。例えば、音声データの全発話の音素列から「eichiaianken」と同一または類似の読みがあるか否かを検索する。具体的には、文頭から順に正規化編集距離を算出する。正規化編集距離とは、二つの文字列を比べてそれらがどれだけ異なるかを計算した値である。正規化編集距離は、例えば、DPマッチングというアルゴリズムを用いて計算することができる。
正規化編集距離について、具体例を用いて説明する。ここでは、「sakana」(魚)と「akinai」(飽きない)の間の正規化編集距離を考える。編集距離は、一方の単語列をもう片方の単語列に変換する際に必要な文字の編集操作(削除、置換、挿入の3操作)の回数である。「sakana」を「akinai」に変換するには、以下のとおり3回の操作が必要なので、編集距離は3である。
sakana
→akana(sを削除)
→akina(aをiに変換)
→akinai(iを挿入)
正規化編集距離はこの編集距離を2つの文字列の長さの積で割ったものである。「sakana」の文字数は6、「akinai」の文字数は6であるため、正規化編集距離は、3÷(6×6)=1/12となる。
例えば、音声データの発話内容とその音声認識結果の音素系列とが以下のようになっているとする。
発話内容:「HI案件について今日話したいことがあるんだけど・・・」
認識結果:「英知相案件について今日話したいことがあるんだけど・・・」
音素系列:「eichiwaiankennitsuitehanaitaikotogaarundakedo・・・」
この音素系列に対して、単語の読み候補である「eichiaianken」を検索する。音素系列の先頭から1文字ずつずらして12文字の単語を得る。その単語と12文字の単語の間の正規化編集距離を計算する。例えば、
eichiwaianke(1文字目から12文字目)とeichiaianken
ichiwaianken(2文字目から13文字目)とeichiaianken
chiwaiankenn(3文字目から14文字目)とeichiaianken
・・・
の間で編集距離を計算する。このようにして、「eichiaianken」との間で一番小さかった編集距離を保存しておく。次に、他のすべての読み候補(この例では、エッチアイアンケン→ecchiaianken)についても、同じ方法で編集距離の最小値を計算する。このすべての編集距離最小値の中でさらに最小値を与えた読み系列を最終的な読みとして決定し、出力する。例えば、
eichiaiankenについて編集距離の最小値は0(eichiaiankenとの距離)
ecchiaiankenについて編集距離の最小値は2/13(eichiaiankenとの距離)
である。この中で最小(音声データにより読みが近いものが存在する)の0を取る「eichiaianken」が正解の読みである確率が高いとされ、こちらが正解の読みとして出力される。
この際に問題となるのが次のような場合である。「AI部」について「エーアイブ」、「アイブ」の2つの読み候補があるとする。音声認識の結果で得られた音素列データに「eichiaibu」という文字列が含まれていたとすると、どちらの読み候補も編集距離は0と計算される。これは、「アイブ」が「エーアイブ」の部分的な文字列だからである。この場合、音素列が長い方の編集距離が0となる場合の方が明らかに珍しい(長いほどマッチする確率は下がる)ため、これを正解の読みとして選択することとする。
ステップS10において、読み付与装置は、読み決定部17が出力する読み情報を出力する。
[変形例1]
音素列の編集距離を計算する際、着目している音素系列の未知語らしさを定義し、これを編集距離計算に導入することができる。ここで、未知語らしさの確率値は0以上1以下の実数であるとする。例えば、音声データの方に、
「ここはミルクがほしいところだ」
という発話が出現し、これを音声認識した結果、
「ココアミルクがほしいところだ」
となったとする。このうち「amirukuga」という音素列が未知語らしさの高い系列だとわかれば、未知語の読みを検索するときに、この部分を重要視することが有効になるはずである。ここで、この未知語らしさを、音としては合っているが言語としては間違っている部分とする狙いから、音素列全体としての音素確率と言語尤度を計算し、その乖離の度合いから計算することとする。
まず、音素列全体としての音素確率を定義する。これは、n文字の音素それぞれに計算された確率(p1, p2, p3, …, pn)に対し、その平均を次式により計算する。
Figure 2017097062
ここで、音声認識結果の各文字の音素確率の値が以下のようになっていたとする。
a→0.7
m→0.5
i→0.5
r→0.3
u→0.95
k→0.7
u→0.6
g→0.7
a→0.5
このとき、この音素列全体としての音素確率は、次式のように0.579と定義される。
Figure 2017097062
次に、音素列全体としての言語尤度を、音声認識結果から得られる各単語の言語尤度を参考に定義する。各単語の言語尤度が以下のようになっていたとする。
ココア→0.6
ミルク→0.9
が→0.7
ほしい→0.95
ところ→0.8
だ→0.92
このとき、音素列全体としての言語尤度は、「ココアミルクがほしいところだ」の音素列「kokoamirukugahosiitokoroda」のうち、「amirukuga」がまたがっている各単語の言語尤度(「ココア(kokoa)→0.6」、「ミルク(miruku)→0.9」、「が(ga)→0.7」)を考慮して、次式のように0.723と定義される。
Figure 2017097062
この音素列全体としての確率値が、音として正解している確率は高いが言語として正解している確率は低いということになれば、そこが実は未知語である可能性が高いと判断される。よって、この音素列全体としての未知語らしさを、「音素列全体としての言語尤度を音素列全体としての音素確率で割ったもの」と定義する。例えば、上記の例では、0.723÷0.579=1.25と計算される。
このようにして計算された未知語らしさで上述した正規化編集距離を割ることによって、新たな正規化編集距離とする。これにより、より適切な音素列を未知語の読みとして決定することができる。
[変形例2]
一般的に音声認識では、単語ごとに「信頼度」と呼ばれる認識結果の確からしさを表す確率値が出力される。この信頼度を用いて、未知語らしさを計算することができる。
例えば、
「ここはミルクがほしいところだ」
と発話し、これを音声認識した結果、
「ココアミルクがほしいところだ」
となったとする。このとき、各単語の信頼度は、例えば、
ココア→0.6
ミルク→0.9
が→0.7
ほしい→0.95
ところ→0.8
だ→0.92
と出力される。
このとき、音素列全体としての信頼度は、「ココアミルクがほしいところだ」の音素列「kokoamirukugahosiitokoroda」のうち、「amirukuga」がまたがっている各単語の信頼度(「ココア(kokoa)→0.6」、「ミルク(miruku)→0.9」、「が(ga)→0.7」)を考慮して、次式のように0.723と定義される。
Figure 2017097062
このようにして計算された未知語らしさで上述した正規化編集距離を割ることによって、新たな正規化編集距離とする。これにより、より適切な音素列を未知語の読みとして決定することができる。
[音声認識装置]
実施形態の音声認識装置は、読み付与装置により出力された未知語とその未知語の読みを表す情報とが追加された音声認識辞書を用いて、入力された音声データの音声認識を行う情報処理装置である。この音声認識装置は、図3に示すように、音声認識部14、および認識辞書記憶部23を含む。この音声認識装置が後述する各ステップの処理を行うことにより実施形態の音声認識方法が実現される。
認識辞書記憶部23には、音声認識に用いる音声認識辞書が記憶されている。この音声認識辞書には、上述の読み付与装置が出力する未知語とその未知語の読みを表す音素列とが関連付けられて追加されている。
図4を参照して、実施形態の音声認識方法の処理手続きを説明する。
ステップS11において、音声認識装置へ、音声認識対象の音声データが入力される。入力された音声データは音声認識部14へ送られる。
ステップS12において、音声認識部14は、認識辞書記憶部23へ記憶された音声認識辞書を用いて、入力音声データを音声認識し、音声認識結果を出力する。この音声認識辞書には未知語の読み情報がすでに登録されているため、入力音声データに未知語が含まれていても認識することが可能である。
ステップS13において、音声認識装置は、音声認識部14が出力する音声認識結果を出力する。
上述のように構成することにより、この発明の読み付与技術では、読みがわからない単語について考えられる読みをすべて列挙し、その単語を含む発話の音声認識結果から同じもしくは類似する音素列が出現する読みを適切な読みとして決定する。これにより、辞書に追加したい単語に対して人手で読みを付与する必要がなく、単語の表層の情報のみから自動で適切な読みを付与することができる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
11 テキスト抽出部
12 形態素解析部
13 未知語抽出部
14 音声認識部
15 対象単語選択部
16 読み候補展開部
17 読み決定部
21 解析辞書記憶部
22 解析結果記憶部
23 認識辞書記憶部
24 音素辞書記憶部
25 認識結果記憶部

Claims (9)

  1. 文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する読み候補展開部と、
    上記音声認識辞書を用いて上記未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する音声認識部と、
    上記音声認識結果の音素列と上記音素列候補それぞれとの類似度に基づいて上記未知語の読みを表す音素列を決定する読み決定部と、
    を含む読み付与装置。
  2. 請求項1に記載の読み付与装置であって、
    上記音声認識部は、上記音声認識結果に各音素の音素確率と各単語の言語尤度とを含むものであり、
    上記読み決定部は、上記音素確率と上記言語尤度とを用いて上記音声認識結果の音素列の未知語らしさを計算し、上記音声認識結果の音素列と上記音素列候補との編集距離を上記未知語らしさで割った値を上記類似度とするものである、
    読み付与装置。
  3. 請求項1に記載の読み付与装置であって、
    上記音声認識部は、上記音声認識結果に各単語の信頼度を含むものであり、
    上記読み決定部は、上記信頼度を用いて上記音声認識結果の音素列の未知語らしさを計算し、上記音声認識結果の音素列と上記音素列候補との編集距離を上記未知語らしさで割った値を上記類似度とするものである、
    読み付与装置。
  4. 請求項1から3のいずれかに記載の読み付与装置であって、
    上記読み決定部は、上記音素列候補の中に上記音声認識結果の音素列との類似度が同一のものがあるときは、より長い音素列である音素列候補を上記未知語の読みを表す音素列とするものである、
    読み付与装置。
  5. 請求項1から4のいずれかに記載の読み付与装置が出力する未知語とその未知語の読みを表す音素列とが追加された音声認識辞書を記憶する認識辞書記憶部と、
    上記音声認識辞書を用いて入力音声データを音声認識する音声認識部と、
    を含む音声認識装置。
  6. 読み候補展開部が、文字列とその文字列が取り得る読みを表す音素とが対応付けられた音素辞書を用いて、音声認識辞書に登録されていない未知語に対して、その未知語に含まれる文字列に対応する音素のすべての組み合わせからなる音素列候補を生成する読み候補展開ステップと、
    音声認識部が、上記音声認識辞書を用いて上記未知語を含む発話を収録した音声データを音声認識し、単語列と音素列とを含む音声認識結果を生成する音声認識ステップと、
    読み決定部が、上記音声認識結果の音素列と上記音素列候補それぞれとの類似度に基づいて上記未知語の読みを表す音素列を決定する読み決定ステップと、
    を含む読み付与方法。
  7. 認識辞書記憶部に、請求項6に記載の読み付与方法が出力する未知語とその未知語の読みを表す音素列とが追加された音声認識辞書が記憶されており、
    音声認識部が、上記音声認識辞書を用いて入力音声データを音声認識する音声認識ステップを含む、
    音声認識方法。
  8. 請求項1から4のいずれかに記載の読み付与装置の各部としてコンピュータを機能させるためのプログラム。
  9. 請求項5に記載の音声認識装置の各部としてコンピュータを機能させるためのプログラム。
JP2015226772A 2015-11-19 2015-11-19 読み付与装置、読み付与方法、およびプログラム Active JP6599219B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015226772A JP6599219B2 (ja) 2015-11-19 2015-11-19 読み付与装置、読み付与方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015226772A JP6599219B2 (ja) 2015-11-19 2015-11-19 読み付与装置、読み付与方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2017097062A true JP2017097062A (ja) 2017-06-01
JP6599219B2 JP6599219B2 (ja) 2019-10-30

Family

ID=58816704

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015226772A Active JP6599219B2 (ja) 2015-11-19 2015-11-19 読み付与装置、読み付与方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6599219B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037770A (zh) * 2020-08-03 2020-12-04 北京捷通华声科技股份有限公司 发音词典的生成方法、单词语音识别的方法和装置
CN113160820A (zh) * 2021-04-28 2021-07-23 百度在线网络技术(北京)有限公司 语音识别的方法、语音识别模型的训练方法、装置及设备
JP2021534439A (ja) * 2018-05-18 2021-12-09 グリーンエデン ユーエス ホールディングス セカンド エルエルシー 自動音声認識システムにおける信頼モデリングのためのマルチクラスアプローチのためのシステム及び方法
US11557286B2 (en) 2019-08-05 2023-01-17 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置
JP7467314B2 (ja) 2020-11-05 2024-04-15 株式会社東芝 辞書編集装置、辞書編集方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2008216756A (ja) * 2007-03-06 2008-09-18 Internatl Business Mach Corp <Ibm> 語句として新たに認識するべき文字列等を取得する技術
JP2010267012A (ja) * 2009-05-13 2010-11-25 Hitachi Ltd 音声データ検索システム及び音声データ検索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2008216756A (ja) * 2007-03-06 2008-09-18 Internatl Business Mach Corp <Ibm> 語句として新たに認識するべき文字列等を取得する技術
JP2010267012A (ja) * 2009-05-13 2010-11-25 Hitachi Ltd 音声データ検索システム及び音声データ検索方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021534439A (ja) * 2018-05-18 2021-12-09 グリーンエデン ユーエス ホールディングス セカンド エルエルシー 自動音声認識システムにおける信頼モデリングのためのマルチクラスアプローチのためのシステム及び方法
JP7223775B2 (ja) 2018-05-18 2023-02-16 ジェネシス クラウド サービシーズ ホールディングス セカンド エルエルシー 自動音声認識システムにおける信頼モデリングのためのマルチクラスアプローチのためのシステム及び方法
AU2019270168B2 (en) * 2018-05-18 2024-01-04 Genesys Cloud Services Holdings II, LLC System and method for a multiclass approach for confidence modeling in automatic speech recognition systems
US11557286B2 (en) 2019-08-05 2023-01-17 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11955119B2 (en) 2019-08-05 2024-04-09 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN112037770A (zh) * 2020-08-03 2020-12-04 北京捷通华声科技股份有限公司 发音词典的生成方法、单词语音识别的方法和装置
CN112037770B (zh) * 2020-08-03 2023-12-29 北京捷通华声科技股份有限公司 发音词典的生成方法、单词语音识别的方法和装置
CN112002308B (zh) * 2020-10-30 2024-01-09 腾讯科技(深圳)有限公司 一种语音识别方法及装置
JP7467314B2 (ja) 2020-11-05 2024-04-15 株式会社東芝 辞書編集装置、辞書編集方法、及びプログラム
CN113160820A (zh) * 2021-04-28 2021-07-23 百度在线网络技术(北京)有限公司 语音识别的方法、语音识别模型的训练方法、装置及设备
CN113160820B (zh) * 2021-04-28 2024-02-27 百度在线网络技术(北京)有限公司 语音识别的方法、语音识别模型的训练方法、装置及设备

Also Published As

Publication number Publication date
JP6599219B2 (ja) 2019-10-30

Similar Documents

Publication Publication Date Title
JP6599219B2 (ja) 読み付与装置、読み付与方法、およびプログラム
US6873993B2 (en) Indexing method and apparatus
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP4570509B2 (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
US20110320464A1 (en) Retrieval device
JP2020087353A (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
US10410632B2 (en) Input support apparatus and computer program product
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
JP2010123005A (ja) 文書データ検索装置
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP6705352B2 (ja) 言語処理装置、言語処理方法、及び言語処理プログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
KR20200084945A (ko) 한글 자연어 처리에서 검색의 품질을 향상시키기 위한 정확도 높은 형태소 분석 장치 및 그 동작 방법
JP6674876B2 (ja) 補正装置、補正方法及び補正プログラム
JP6009396B2 (ja) 発音付与方法とその装置とプログラム
JP2014126925A (ja) 情報検索装置および情報検索方法
JP2021086362A (ja) 情報処理装置、情報処理方法及びプログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
US11080488B2 (en) Information processing apparatus, output control method, and computer-readable recording medium
US20230143110A1 (en) System and metohd of performing data training on morpheme processing rules
JP2015040864A (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
JP4007504B2 (ja) 単語分割装置、記憶媒体およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190829

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191002

R150 Certificate of patent or registration of utility model

Ref document number: 6599219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150