JP2009258293A - 音声認識語彙辞書作成装置 - Google Patents

音声認識語彙辞書作成装置 Download PDF

Info

Publication number
JP2009258293A
JP2009258293A JP2008105921A JP2008105921A JP2009258293A JP 2009258293 A JP2009258293 A JP 2009258293A JP 2008105921 A JP2008105921 A JP 2008105921A JP 2008105921 A JP2008105921 A JP 2008105921A JP 2009258293 A JP2009258293 A JP 2009258293A
Authority
JP
Japan
Prior art keywords
reading
notation
dictionary
text data
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008105921A
Other languages
English (en)
Inventor
Michihiro Yamazaki
道弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2008105921A priority Critical patent/JP2009258293A/ja
Publication of JP2009258293A publication Critical patent/JP2009258293A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】従来はテキストデータを形態素解析して読み候補付与、分割位置決定をするが演算時間が掛かり、表記テキストデータの分割・読み付与は、同一表記に複数読み候補が返り演算時間の増大、認識精度の低下を、読みテキストデータの分割・読み付与は、分割位置精度の低下を来す。
【解決手段】ユーザの発話が、表記・読みテキスト記憶部の表記と読み対のテキストデータのいずれかを音声認識用語彙辞書を用いて認識する音声認識用語彙辞書を作成するため、表記・読みテキスト記憶部からのテキストデータの表記と読み対の対応付けを表記読み対応記憶手段の表記とその読み候補を参照して表記・読み対応付け手段で決定し、対応付けされた表記と読みのテキストデータを単語又は語句単位に分割手段で分割し、分割後の表記・読みの対に対し認識語彙辞書作成手段で音声認識用語彙辞書を生成、認識語彙辞書記憶部に格納する。
【選択図】図1

Description

本発明は、携帯電話機等の電子機器に記憶されたアドレス帳の名前(表記)及びそのフリガナ(読み)等のテキストデータを音声認識するための音声認識語彙辞書を自動作成する音声認識語彙辞書作成装置に関する。
従来、電子機器に記憶された表記と読みが対になったテキストデータから、テキストデータを取り出し、当該テキストデータに対応する音声認識用語彙辞書を参照し、ユーザの発声した音声を認識して前記テキストのいずれが発声されたかを認識する音声認識装置の音声認識用語彙辞書を自動作成する方法が開示されている。例えば、特許文献1にはテキストデータである電話番号と対応する発信先の読みデータを解析して音素列情報に変換し、音声認識語彙辞書を作成する方法が開示されている。
また、特許文献2には、形態素解析を行い、単語に分割して各分かち候補、読み候補、連接単語を考慮して、発声単位/読みのペアを登録する方法について開示されている。
特開2006−14216号公報 特開2002−41081号公報
従来の音声認識語彙辞書作成装置は、テキストデータに対して形態素解析を行い、読みの候補の付与、分割位置の決定を行っている。このため演算時間がかかり、携帯端末等演算量、メモリ量の少ない端末上での処理が難しかった。
また、表記のテキストデータに対して形態素解析により形態素への分割及び読みの付与を行うと、同じ表記に対して複数の読みの候補が結果として返り、認識語彙として登録する必要のある読みの候補が多くなり、認識精度の低下及び認識演算時間の増大といった問題がおきるという課題があった。
さらに、読みのテキストデータに対して形態素解析により形態素への分割及び読みの付与を行うと、形態素としての分割位置の判断が難しく、分割精度が低下するといった問題点があった。
本発明は上記のような問題点を解決するためになされたもので、表記と読みの対になるテキストデータに対して、高精度かつ高速に認識語彙辞書を作成する音声認識語彙辞書作成装置を提供することを目的とする。
本発明に係る音声認識語彙辞書作成装置は、
表記と読みが対になったテキストデータが複数記憶された表記・読みテキスト記憶部と、前記表記・読みテキストデータに対応する音声認識用語彙辞書を記憶する認識語彙辞書記憶部と、ユーザの発声した音声を入力して、前記認識語彙辞書記憶部の音声認識用語彙辞書を参照し、ユーザの発声した音声を認識して前記テキストのいずれが発声されたかを認識する音声認識部とを備える音声認識装置の前記音声認識用語彙辞書を生成する音声認識語彙辞書作成装置において、
表記とその表記に対する読みの候補が記憶された表記読み対応記憶手段と、
前記電子機器の表記・読みテキスト記憶部に記憶されたテキストデータを取得し、テキストデータの表記と読みの各対の対応付けを表記読み対応記憶手段を参照して決定する表記・読み対応付け手段と、
前記表記・読み対応付け手段により対応付けられた表記と読みが対になったテキストデータに対して単語又は語句単位に分割を行う分割手段と、
前記分割手段により分割された表記・読みの対に対して前記音声認識用語彙辞書を生成し、前記認識語彙辞書記憶部に格納する認識語彙辞書作成手段と、
を備える。
本発明の音声認識語彙辞書作成装置によれば、入力された認識対象のテキストデータを記憶する表記・読み表記・読みテキスト記憶部からのテキストデータの表記と読み各対の対応付けを表記読み対応記憶手段の表記とその表記に対する読みの候補を参照して表記・読み対応付け手段で決定し、この対になった表記と読みのテキストデータを単語又は語句単位に分割手段で分割し、分割された表記・読みの対に対し認識語彙辞書作成手段で音声認識用語彙辞書を生成、認識語彙辞書記憶部に格納する構成にされているので、入力される表記・読みの分割を自動で行うことにより、ユーザの登録の手間を省きつつ、語彙の一部のみの発話を認識可能な認識装置を構成することが出来る。また、表記と読み双方を用いて解析・分割を行うため、表記のみまたは読みのみで解析・分割する場合に比べ分割の精度が向上する。即ち表記のみで解析・分割を行う場合に比べ、読みを用いることで当該読みを行う際の分割位置が限定出来る。また読みのみで解析・分割を行う場合に比べて意味を表す表記を用いることで分割位置を限定することが出来る効果を奏する。
実施の形態1.
図1は本発明の実施の形態1を示す構成図である。図1において、
10は認識対象とするテキストの表記と読みの対を記憶する表記・読みテキスト記憶手段。
11は表記・読みテキスト記憶手段10に記憶されている表記と読みの各対に対して、表記の各文字と読みの各文字の対応付けを行う表記・読み対応付け手段。
12は漢字等の表記とその表記に対する読みの候補をあらかじめ記憶しておく表記読み対応記憶手段。
13は表記・読み対応付け手段11で対応付けられた表記・読みに対して認識時の分割位置候補を出力する分割手段。
14は分割手段13で出力された分割位置に応じて、入力された表記・読みリストから認識語彙を生成する認識語彙辞書作成手段。
15は認識語彙辞書作成手段で出力される認識語彙を記憶する認識語彙辞書である。
また、分割手段13は、
スペースや記号により表記・読み対応付け手段11で対応付けられた表記・読みに対する分割位置の判定を行うスペース・記号による分割手段131、
仮名漢字や、カタカナ、記号等の文字種別により表記・読み対応付け手段11で対応付けられた表記・読みに対する分割を行う文字種別による分割手段132、
入力対象となるテキストで使用される語句の表記と読みの対応表を予め記憶しておくテキストのジャンルに応じた辞書記憶手段134、辞書記憶手段134に記憶されている辞書を用いて表記・読み対応付け手段11で対応付けられた表記・読みに対する分割を行う辞書による分割手段133、上記131〜134の各分割手段により分割された位置による分割区間の内所定文字数以上の表記あるいは読みを持つ区間に対して表記単位で分割を行う、表記による分割手段135により構成される。
次に動作について説明する。
入力される表記・読みリストは、例えば携帯電話のアドレス帳の名前(表記)及びそのフリガナ(読み)などがある。
表記・読み対応付け手段11では、アドレス帳の各名前表記とその読み(フリガナ)について、表記読み対応記憶手段12で記憶している表記と読みの対応付けを用いて、名前の表記で使用されている各文字または単語と読み(フリガナ)との対応付けを行う。
ここで表記読み対応記憶手段12は表記で使われる文字とその読みを表記文字毎に記憶しているものとする。記憶している内容の例を図2に示す。本実施の形態では主に単漢字や記号とその読みリストの対応、及び単漢字では表現できない特殊な熟語等を記憶する。特殊な熟語としては、例えば流石(さすが)や四月一日(わたぬき)等、一文字単位の読みから構成出来ない特殊な読みを持つ表記がある。また、ひらがな、カタカナ等の表記に対する読みの表記をあわせて記憶しても良い。
この対応付けの例として例えば表記「本社 佐藤課長」と読み「ホンシャ サトウカチョウ」が入力されたとする。この時、表記「本社 佐藤課長」の各文字に対応する読みは表記読み対応記憶手段12から図3のものが得られ、図4のような対応付けの結果が得られる。
次に分割手段13で、表記・読み対応付け手段11で出力された表記各文字とその読みに、認識時の分割候補位置を設定し出力する。
まず、スペース・記号による分割手段131において、予め定めた記号が表記、又は読みに含まれる箇所で分割する。分割箇所は記号の前後とする。分割を行う記号としては、例えば図5に示すような“ ”(スペース)、“:”(コロン)、“-”(ハイフン)などである。
次に文字種別による分割手段132により分割位置の追加を行う。例えば表記文字においては文字種別を、「漢字・平仮名」、「カタカナ」、「アルファベット」、「記号」の4種類として、各文字種別の境目を分割位置とする。また読みについては「カタカナ」、「アルファベット」、「記号」の3種類として、各文字種別の境目を分割位置とする。
次に辞書による分割手段133により分割位置の追加を行う。辞書による分割手段133では辞書記憶手段134に記憶されている読みと表記により分割位置を決定する。辞書記憶手段134では入力対象によく使用される語句について表記と読みの対応表を予め記憶しておく。例えば入力がアドレス帳の場合、辞書記憶手段134には姓の表記と読み、名の表記と読みを登録しておく。また他にアドレス帳によく使用される単語・語句(さん、課長、会社、等)を記憶しておいても良い。
辞書による分割手段133では文字種別による分割手段132までで分割された各区間内で、辞書記憶手段134に記憶されている表記と読みが一致する区間があった場合、一致した区間の前後を分割位置とする。
最後に表記による分割手段135で分割位置の確認・調整を行う。
上記の各分割手段で分割された各候補の長さをチェックし、足りないと判断した区間に対しさらに分割を行う。例えば、区間内の読みが所定文字数以上存在する場合に、表記文字単位での分割を行う。また、当該区間に対して日本語形態素解析プログラムを使用し、形態素単位での分割を行っても良い。
認識語彙辞書作成手段14では、上記分割手段3で分割された表記・読みリストから、音声認識用の認識辞書を作成する。
例えば、連続単語認識エンジン(構文制御型認識エンジン)用の辞書を作成する場合は、任意の分割位置を認識語彙の先頭、最後尾とすることが可能な構文ネットワークを生成する。
例えば図6のように、表記「本社 佐藤課長」、読み「ホンシャ サトウカチョウ」に対して「ホンシャ」「 」「サトウ」「カチョウ」の様に分割された場合、記号「 」に対する読みが存在しないことから、「ホンシャ」「サトウ」「カチョウ」を図6の下側に示すようなネットワーク構造を持つ辞書として構成する。このように構成することにより、「ホンシャサトウカチョウ」という発話以外にも、「ホンシャ」、「サトウ」、「カチョウ」、「ホンシャサトウ」、「サトウカチョウ」のような発話に対しても音声認識可能となる。
以上のように、本実施の形態によれば、入力される表記・読みの分割を自動で行うことにより、ユーザの登録の手間を省きつつ、語彙の一部のみの発話を認識可能な認識装置を構成することが出来る。
表記と読み双方を用いて解析・分割を行うため、表記のみまたは読みのみで解析・分割する場合に比べ分割の精度が向上する。例えば表記のみで解析・分割を行う場合に比べ、読みを用いることで当該読みを行う際の分割位置が限定出来る。また読みのみで解析・分割を行う場合に比べて意味を表す表記を用いることで分割位置を限定することが出来る。
また、表記、読みに含まれる記号で入力表記・読みを分割し認識辞書を生成することにより、ユーザの意図に合った位置での分割が可能となる。
また、表記・読みの文字種別により分割を行うことにより、信頼性の高い分割が可能となる。
また、認識対象となる語彙にあった辞書を用いた分割を行うことにより、より正確な分割が可能となる。
また、文字種別や記号等により分割された区間に対して辞書による分割を行うことにより、辞書の検索範囲を減らすことが出来、分割に必要な演算量を減らすことが出来、低コストで高速な分割処理が可能となる。
また、表記と読みを対応付け、長い区間に対して表記単位での分割を行うことにより、辞書にない未知語などに対しても分割が可能となり、また読みの各位置で分割することに比べて精度の高い分割が可能となる。
実施の形態2.
上記実施の形態1において表記・読み対応付け手段11は入力された表記と読みのテキストに対して対応付けを行う処理に表記文字単位で対応付けを行っており、辞書記憶手段134に記憶されているテキストのジャンルに応じた辞書は分割手段で使用していた。一方本実施の形態2では表記・読み対応付け手段により表記と読みの対応付けの際に辞書記憶手段に記憶されている辞書を併用することにより、記号や複数の文字種別を持つ表記を一つの分割単位とすることが可能となる。また、複数文字表記での特殊な読みの対応表を辞書記憶手段もしくは表記読み対応記憶手段の一方のみに記憶させることが出来、記憶領域の削減につながる。
図7は本発明の実施の形態2を示す構成図である。図7において、
20は認識対象とするテキストの表記と読みの対を記憶する表記・読みテキスト記憶手段。
21は表記・読みテキスト記憶手段20に記憶されている表記と読みの各対に対して、表記の各文字と読みの各文字の対応付けを行う表記・読み対応付け手段。
22は漢字等の表記とその表記に対する読みの候補をあらかじめ記憶しておく表記読み対応記憶手段であり、実施の形態1の表記読み対応記憶手段12と同様のものである。
23は表記・読み対応付け手段21で対応付けられた表記・読みに対して認識時の分割位置候補を出力する分割手段。
24は分割手段23で出力された分割位置に応じて、入力された表記・読みリストから認識語彙を生成する認識語彙辞書作成手段。
25は認識語彙辞書作成手段で出力される認識語彙を記憶する認識語彙辞書。
26は入力される表記・読みの分野(アドレス帳、曲名、電子番組表等)に応じて、使用頻度の高い単語の表記とその表記に対する読みの候補をあらかじめ記憶する辞書記憶手段である。
また、分割手段23は、表記・読み対応付け手段21で辞書記憶手段26に記憶されている辞書により対応付けられた区間を1つの区間として分割を行う辞書による分割手段231、
スペースや記号により分割位置の判定を行うスペース・記号による分割手段232、
仮名漢字や、カタカナ、記号等の文字種別により分割を行う文字種別による分割手段233、
上記231〜233各分割手段により分割された位置による分割区間の内所定文字数以上の表記あるいは読みを持つ区間に対して表記単位で分割を行う、表記による分割手段234により構成される。
次に動作について説明する。
表記・読み対応付け手段21では、アドレス帳の各名前表記とその読み(フリガナ)について、表記読み対応記憶手段22及び辞書記憶手段26で記憶している表記と読みの対応付けを用いて、名前の表記で使用されている各文字または単語と読み(フリガナ)との対応付けを行う。
ここで辞書記憶手段26には入力される表記・読みリストで出現頻度が高いと想定される単語の表記及びその読みについて記憶しているものとする。例えば入力がアドレス帳の名前の表記及び読みの場合は、人名の「姓」「名」のそれぞれ上位1万傑等を持つ。また、アドレス帳でよく使用される単語「会社」「さん」「部長」「課長」などを登録しておく。
また、表記読み対応記憶手段22は表記で使われる文字とその読みを表記文字毎に記憶しているものとし、記憶している内容例は図2に示すように実施の形態1の表記読み対応記憶手段12と同様のものとする。本実施の形態では表記読み対応記憶手段22は主に単漢字や記号とその読みリストの対応、及び単漢字では表現できない特殊な熟語等を記憶する。特殊な熟語としては、例えば流石(さすが)、紫陽花(あじさい)等、一文字単位の読みから構成出来ない特殊な読みを持つ表記がある。また、ひらがな、カタカナ等の表記に対する読みの表記をあわせて記憶しても良い。なお、特殊な読みであっても辞書記憶手段26に登録されている単語に対しては表記読み対応記憶手段22に記憶する必要はない。
表記・読み対応付け手段21での対応付けとして例えば表記「三菱電機 佐藤課長」と読み「ミツビシデンキ サトウカチョウ」が入力された例を図8に示す。表記読み対応記憶手段22と辞書記憶手段26を使用して対応付けを行った結果、「三菱電機 佐藤課長」の「佐藤」「課長」に対しては辞書記憶手段26で記憶されている単語があり、「三菱電機 」の各部分文字列に対しては辞書記憶手段26で対応する単語が存在しなかった場合、「三菱電機 」に対しては表記読み対応記憶手段22に記憶されている表記と読みの対応付けから各表記文字に対して読みの対応付けを行う。
次に分割手段23において表記・読み対応付け手段21で表記と読みの対応付けが行われたテキストに対して分割を行う。
分割手段23ではまず、表記読み対応付け手段21において辞書記憶手段26により表記と読みの対応付けが行われた区間を辞書記憶手段26に記憶された辞書の単位に応じて分割し、上記表記読み対応記憶手段22により上記以外の表記と読みの対応付けが行われた区間をさらに分割する。
まず、辞書による分割手段231では、表記読み対応付け手段21において辞書記憶手段26により表記と読みの対応付けが行われた区間に対して、表記と読みが対応付けられている単位毎に分割を行う。すなわち図8の例では「佐藤」の前後、及び「課長」の前後で分割されることとなり、「三菱電機 」、「佐藤」、「課長」と分割されることになる。
次に、スペース・記号による分割手段232において、表記読み対応記憶手段22により表記と読みの対応付けが行われた区間を、予め定めた記号が表記、又は読みに含まれる箇所で分割する。すなわち図8の例で対象となる区間は「三菱電機 」である。ここで、分割箇所は記号の前後とし、分割を行う記号は例えば図5に示すような“ ”(スペース)、“:”(コロン)、“-”(ハイフン)などである。
次に文字種別による分割手段233により分割位置の追加を行う。例えば表記文字においては文字種別を、「漢字・平仮名」、「カタカナ」、「アルファベット」、「記号」の4種類として、各文字種別の境目を分割位置とする。また読みについては「カタカナ」、「アルファベット」、「記号」の3種類として、各文字種別の境目を分割位置とする。すなわち、表記読み対応記憶手段22により表記と読みの対応付けが行われた区間として表記「ホテル三菱電機」、読み「ホテルミツビシデンキ」があった場合、表記の文字種別から「ホテル」と「三菱電機」に分割する。この時読みのテキストも表記との対応付けに応じて「ホテル」と「ミツビシデンキ」に分割される。
最後に表記による分割手段234で分割位置の確認・調整を行う。表記による分割手段234では、上記の各分割手段で分割された各候補の長さをチェックし、分割が足りないと判断した区間に対しさらに分割を行う。例えば、区間内の読みが所定文字数以上存在する場合に、表記文字単位での分割を行う。また、当該区間に対して日本語形態素解析プログラムを使用し、形態素単位での分割を行っても良い。
認識語彙辞書作成手段24では、上記分割手段23で分割された表記・読みリストから、音声認識用の認識辞書を作成する。
例えば、連続単語認識エンジン(構文制御型認識エンジン)用の辞書を作成する場合は、任意の分割位置を認識語彙の先頭、最後尾とすることが可能な構文ネットワークを生成する。例えば図6のように、表記「本社 佐藤課長」、読み「ホンシャ サトウカチョウ」に対して「ホンシャ」「 」「サトウ」「カチョウ」の様に分割された場合、記号「 」に対する読みが存在しないことから、「ホンシャ」「サトウ」「カチョウ」を図6の下側に示すようなネットワーク構造を持つ辞書として構成する。このように構成することにより、「ホンシャサトウカチョウ」という発話以外にも、「ホンシャ」、「サトウ」、「カチョウ」、「ホンシャサトウ」、「サトウカチョウ」のような発話に対しても音声認識可能となる。
以上のように、入力の分割を自動で行うことにより、ユーザの登録の手間を省きつつ、語彙の一部のみの発話を認識可能な認識装置を構成することが出来る。
表記と読み双方を用いて解析・分割を行うため、表記のみ、読みのみで解析・分割を行う場合に比べ、分割の精度が向上する。例えば表記のみで解析・分割を行う場合に比べ、読みを用いることで当該読みを行う際の分割位置が限定出来る。また読みのみで解析・分割を行う場合に比べて意味を表す表記を用いることで分割位置を限定することが出来る。
また、表記と読みの対応付けの際に、入力される表記と読みのジャンルに合った辞書記憶手段26に記憶された辞書を用いることにより、対応付けの精度が向上し、また特定のジャンルに現れる特殊な読み(名前など)に対する読みを辞書記憶手段26側にのみ持たせることが可能で記憶領域の削減につながる。
また、最初に辞書記憶手段26に記憶されている辞書による分割を行うことで、記号や複数の文字種別を持つ表記を一つの分割単位とすることが可能となる。
表記、読みに含まれる記号で入力表記・読みを分割し認識辞書を生成することにより、ユーザの意図に合った位置での分割が可能となる。
また、表記・読みの文字種別により分割を行うことにより、信頼性の高い分割が可能となる。
また、認識対象となる語彙にあった辞書を用いた分割を行うことにより、より正確な分割が可能となる。
また、文字種別や記号等により分割された区間に対して辞書による分割を行うことにより、辞書の検索範囲を減らすことが出来、分割に必要な演算量を減らすことが出来、低コストで高速な分割処理が可能となる。
また、表記と読みを対応付け、長い区間に対して表記単位での分割を行うことにより、辞書にない未知語などに対しても分割が可能となり、また読みの各位置で分割することに比べて精度の高い分割が可能となる。
実施の形態3.
実施の形態3は、実施の形態1に対して新しい表記及び読みの登録が可能な機能を追加したものである。本実施の形態3では、登録時の日本語入力操作に対応付けて分割候補位置を記憶しておき、認識語彙辞書生成時の分割処理時に上記分割候補位置を使用して分割を行う処理を追加している。
本実施の形態の構成を図9に示す。図9において、
30は認識対象となる語の表記・読みを入力する手段であり、例えばキーボード等から読み文字列を入力し日本語仮名漢字変換プログラム(FEP;Front End Processor)を使用して表記に変換し入力を行う表記・読み入力手段。
31は表記・読み入力手段30において、仮名漢字変換操作、確定操作、編集操作を行った箇所が表記・読みのどの場所で行われたかを取得する入力時分割位置取得手段。
32は入力時分割位置取得手段31により取得された分割位置を記憶する入力時分割位置記憶手段。
33は表記・読みテキスト記憶手段10に記憶されている表記と読みの各対に対して、表記読み対応記憶手段12に記憶されている表記と読み候補の対応付けを行うとともに入力時分割位置記憶手段32に記憶されている分割位置を用いて、新たに登録される表記の各文字と読みの各文字の対応付けを行う表記・読み対応付け手段。
34は表記・読み対応付け手段33により対応付けられた表記・読みテキストの分割を行う分割手段である。
なお、分割手段34は、
入力時分割位置記憶手段32に記憶されている分割位置に応じて、表記・読み対応付け手段33で出力された表記各文字とその読みに対し、分割を行う入力時分割位置反映手段341、
スペースや記号により分割位置の判定を行うスペース・記号による分割手段131、
仮名漢字や、カタカナ、記号等の文字種別により分割を行う文字種別による分割手段132、
入力対象となるテキストで使用される語句の表記と読みの対応表を予め記憶しておく辞書記憶手段134、
辞書記憶手段134に記憶されている辞書を用いて分割を行う辞書による分割手段133、
上記入力時分割位置反映手段341及び131〜134の各分割手段により分割された位置による分割区間の内、所定文字数以上の表記あるいは読みを持つ区間に対して表記単位で分割を行う表記による分割手段342により構成される。
その他の構成は実施の形態1と同様である。
次に動作について説明する。
図9において、表記・読み入力手段30は認識対象となる語をユーザが追加するための手段であり、例えば携帯電話のキー入力により、カナ文字を入力して日本語仮名漢字変換プログラム(FEP)により仮名漢字文字列に変換して、入力されたカナ文字を、“読み”、変換後の文字列を、“表記”として登録を行う。また、表記側のみの編集(削除やカット&ペースト等の操作)や読み側のみの編集も可能とする。
入力時分割位置取得手段31では、表記・読み入力手段30で表記・読みを登録する際に、ユーザの仮名漢字変換操作や文字種別の切り替え操作、確定操作(変換を行わず入力文字列をそのまま表記として登録)などの操作タイミング等を表記・読み文字列と対応付けて取得する。また、表記側のみの編集、読み側のみの編集などによって、表記と読みの対応付けが変わった(対応付けられなくなった)箇所についても同時に取得する。
分割位置の決定方法は、入力時分割位置取得手段31により、まず、読みとその読みに対する仮名漢字変換操作及び確定操作により入力された変換位置を、表記・読み入力手段30で新たに入力された表記と読みのテキストデータの分割位置の候補とする。次に、各分割候補位置で表記又は読みに対して追加(コピー等の入力)編集操作が行われていた場合、その分割候補位置を候補から外す。また、読み又は表記側で分割候補位置をまたがって削除や変更(上書き等)の編集操作が行われていた場合は、対応する分割候補位置(読み側で編集されていたら表記側、表記側で編集されていたら読み側の分割候補位置)を削除する。
以上のようにして求めた分割位置候補の位置情報(表記・読みのどの箇所で分割されるかを示す情報)を、入力時分割位置として、入力時分割位置記憶手段32に記憶する。また、入力時分割位置取得手段31は同時に、ユーザにより入力された表記・読みテキストを、表記・読みテキスト記憶手段10に記憶する。
表記・読み対応付け手段33では、表記・読みテキスト記憶手段10に記憶されている各表記とその読みについて、表記読み対応記憶手段12で記憶している表記と読みの対応付け、及び入力位置分割位置記憶手段32に記憶されている分割位置を用いて、表記で使用されている各文字または単語と読みとの対応付けを行う。この表記・読み対応付け手段33での対応付けの方法を図10に示す。
まず表記・読み対応記憶手段10に記憶されている表記と読みの対についてそれぞれ、対応付けの処理を行う。対応付けの対象となっている表記・読みの対に対して、入力時分割位置記憶手段32に対応する項目(分割位置)が記憶されているかチェックする。対応する分割位置が記憶されていない場合は実施の形態1と同様に、入力全区間に対して表記・読み対応記憶手段12の対応付け表を用いて対応付けを行う。
一方、入力時分割位置記憶手段32に対応する項目(分割位置)が記憶されている場合は、記憶されている分割位置に従って、表記・読みの対をまず分割する。次に各分割された区間毎に当該区間に含まれる表記と読みにたいして表記読み対応記憶手段12の対応付け表を用いて対応付けを行う。
その後、実施の形態1と同様にスペース・記号による分割手段131、文字種別による分割手段132、辞書による分割手段133、により順次分割を行い最後に表記による分割手段342により分割位置の確認・調整を行う。
表記による分割手段342では上記の各分割手段で分割された各候補の長さをチェックし、分割が足りないと判断した区間に対しさらに分割を行う。例えば、分割区間内の読みが所定文字数以上存在する場合に、表記文字単位での分割を行う。また、当該区間に対して日本語形態素解析プログラムを使用し、形態素単位での分割を行っても良い。
認識語彙辞書作成手段14では、実施の形態1と同様に上記分割手段34により分割された表記・読みリストから、音声認識用の認識語彙辞書15を作成する。
本実施の形態によれば、実施の形態1の効果に加えて、ユーザの新たに入力する読みの入力時における変換・編集操作より、分割位置を決定することにより、よりユーザの感覚に近いテキストの分割が可能となる。
本発明は、携帯電話機等における電話帳の名前等、表記及び読みのテキストデータから、音声認識用認識辞書の作成に関するもので、入力されたテキストデータに対し自動的に分割し認識候補とするものであり、携帯電話機の電話帳データやカーナビゲーションシステムなどに登録されている例えば音楽の曲名等の一部を発声することにより認識可能とする技術であり、携帯電話機、カーナビゲーションシステム、カーオーディオ装置に適用可能である。
本発明の実施の形態1を示す構成図である。 表記読み対応記憶手段に記憶されている文字とその読みの内容例の説明図である。 入力文字に対応する表記読み対応記憶手段の記憶内容例の説明図である。 表記・読み対応付け手段による処理結果の説明図である。 スペース・記号による分割手段で分割箇所となる記号例の説明図である。 ネットワーク構造を持つ辞書として構成例の説明図である。 本発明の実施の形態2を示す構成図である。 表記と読みが入力された対応付け例の説明図である。 本発明の実施の形態3を示す構成図である。 本発明の実施の形態3における表記・読み対応付け手段による対応付け処理フロー図である。
符号の説明
10、20;表記・読みテキスト記憶手段、11、21、33;表記・読み対応付け手段、12、22;表記読み対応記憶手段、13、23、34;分割手段、14、24;認識語彙辞書作成手段、15、25;認識語彙辞書、26、134;辞書記憶手段、30;表記・読み入力手段、31;入力時分割位置取得手段、32;入力時分割位置記憶手段、131、232、;スペース・記号による分割手段、132、233、;文字種別による分割手段、133、231;辞書による分割手段、135、234、342;表記による分割手段、341;入力時分割位置反映手段。

Claims (6)

  1. 表記と読みが対になったテキストデータが複数記憶された表記・読みテキスト記憶部と、前記表記・読みテキスト記憶部に記憶された表記・読みテキストデータに対応する音声認識用語彙辞書を記憶する認識語彙辞書記憶部と、ユーザの発声した音声を入力して、前記認識語彙辞書記憶部の音声認識用語彙辞書を参照し、ユーザの発声した音声を認識して前記テキストのいずれが発声されたかを認識する音声認識部とを備える音声認識装置の前記音声認識用語彙辞書を生成する音声認識辞書作成装置において、
    表記とその表記に対する読みの候補が記憶された表記読み対応記憶手段と、
    前記電子機器の表記・読みテキスト記憶部に記憶されたテキストデータを取得し、テキストデータの表記と読みの各対の対応付けを表記読み対応記憶手段を参照して決定する表記・読み対応付け手段と、
    前記表記・読み対応付け手段により対応付けられた表記と読みが対になったテキストデータに対して単語又は語句単位に分割を行う分割手段と、
    前記分割手段により分割された表記・読みの対に対して前記音声認識用語彙辞書を生成し、前記認識語彙辞書記憶部に格納する認識語彙辞書作成手段と、
    を備えた音声認識語彙辞書作成装置。
  2. 前記分割手段は、表記と読みの対になったテキストデータに対して、スペース等あらかじめ定めた記号によりテキストの分割を行うスペース・記号による分割手段を持つことを特徴とする請求項1に記載の音声認識語彙辞書作成装置。
  3. 前記分割手段は、表記と読みの対になったテキストデータに対して、仮名漢字、カタカナ、アルファベット、数字などの文字種別毎に分割を行う文字種別による分割手段を持つことを特徴とする請求項1又は請求項2に記載の音声認識語彙辞書作成装置。
  4. 前記表記・読みテキスト記憶部に記憶された表記と読みの対になったテキストデータで使用される頻度の高い単語・語句の表記と読みの辞書があらかじめ作成され記憶された辞書記憶手段を備え、
    前記分割手段は、前期辞書記憶手段に記憶される辞書を用いて表記と読みの対になったテキストデータに対して分割を行う辞書による分割手段を持つことを特徴とする請求項1乃至請求項3の何れか1項に記載の音声認識語彙辞書作成装置。
  5. 前記分割手段は、表記と読みの対になったテキストデータに対して、前記表記・読み対応付け手段により対応付けられた表記単位で読みを分割する表記による分割手段を持つことを特徴とする請求項1乃至請求項4の何れか1項に記載の音声認識語彙辞書作成装置。
  6. 表記と読みの対を追加登録を行うためユーザにより新たに入力された読みに対し、仮名漢字変換などの変換手段により表記・読みのテキストデータに変換して表記・読みテキスト記憶部に記憶し、かつ、変換手段による変換・編集操作で表記・読みのテキストデータに対して分割位置を決定する入力時分割位置取得手段と、
    前記入力時分割位置取得手段により取得された分割位置を記憶する入力時分割位置記憶手段とを備え、
    分割手段は、前記表記・読み対応付け手段により対応付けられた表記と読みが対になったテキストデータに対して入力時分割位置記憶手段を参照して、単語又は語句単位に分割を行うことを特徴とする請求項1乃至請求項5の何れか1項に記載の音声認識語彙辞書作成装置。
JP2008105921A 2008-04-15 2008-04-15 音声認識語彙辞書作成装置 Pending JP2009258293A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008105921A JP2009258293A (ja) 2008-04-15 2008-04-15 音声認識語彙辞書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008105921A JP2009258293A (ja) 2008-04-15 2008-04-15 音声認識語彙辞書作成装置

Publications (1)

Publication Number Publication Date
JP2009258293A true JP2009258293A (ja) 2009-11-05

Family

ID=41385826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008105921A Pending JP2009258293A (ja) 2008-04-15 2008-04-15 音声認識語彙辞書作成装置

Country Status (1)

Country Link
JP (1) JP2009258293A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012045431A (ja) * 2011-12-07 2012-03-08 Konami Digital Entertainment Co Ltd ゲームシステム、データ生成システム、それに用いるデータ生成方法及び、コンピュータプログラム
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
JP2012165859A (ja) * 2011-02-14 2012-09-06 Kita Denshi Corp 遊技機
KR101235694B1 (ko) 2012-08-14 2013-03-05 다이알로이드(주) 음성인식 시스템 및 그 음성인식 방법
JP2013235117A (ja) * 2012-05-08 2013-11-21 Yahoo Japan Corp 単語分割装置、及び単語分割方法
US11455990B2 (en) 2017-11-24 2022-09-27 Samsung Electronics Co., Ltd. Electronic device and control method therefor
WO2023166651A1 (ja) * 2022-03-03 2023-09-07 シャープNecディスプレイソリューションズ株式会社 情報処理装置及び情報処理プログラム

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0567073A (ja) * 1991-09-09 1993-03-19 Mitsubishi Electric Corp 形態素解析装置および文節辞書作成装置
JP2000010583A (ja) * 1998-06-19 2000-01-14 Fujitsu Ltd 音声認識方法及び装置
JP2001359010A (ja) * 2000-06-16 2001-12-26 Nippon Hoso Kyokai <Nhk> 放送方法および放送システム
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2002222187A (ja) * 2001-01-25 2002-08-09 Kyocera Corp ユーザ辞書登録方法、及びユーザ辞書登録機能付き電子機器
JP2004133003A (ja) * 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置
JP2004328177A (ja) * 2003-04-23 2004-11-18 Yoshimi Kanemitsu データ通信と通話の組み合わせにて顧客サービスを行うためのプログラム、情報処理方法、電話機及び情報処理システム
JP2006004069A (ja) * 2004-06-16 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 住所テーブル生成支援方法及び装置及びプログラム
JP2006014216A (ja) * 2004-06-29 2006-01-12 Toshiba Corp 通信端末及び辞書作成方法
JP2006094126A (ja) * 2004-09-24 2006-04-06 Canon Inc 音声合成装置
JP2006155529A (ja) * 2004-12-01 2006-06-15 Toshiba Corp 辞書登録装置、辞書登録方法および辞書登録プログラム
JP2006221532A (ja) * 2005-02-14 2006-08-24 Nec Corp 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム
JP2008046538A (ja) * 2006-08-21 2008-02-28 Internatl Business Mach Corp <Ibm> テキスト音声合成を支援するシステム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0567073A (ja) * 1991-09-09 1993-03-19 Mitsubishi Electric Corp 形態素解析装置および文節辞書作成装置
JP2000010583A (ja) * 1998-06-19 2000-01-14 Fujitsu Ltd 音声認識方法及び装置
JP2001359010A (ja) * 2000-06-16 2001-12-26 Nippon Hoso Kyokai <Nhk> 放送方法および放送システム
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2002222187A (ja) * 2001-01-25 2002-08-09 Kyocera Corp ユーザ辞書登録方法、及びユーザ辞書登録機能付き電子機器
JP2004133003A (ja) * 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置
JP2004328177A (ja) * 2003-04-23 2004-11-18 Yoshimi Kanemitsu データ通信と通話の組み合わせにて顧客サービスを行うためのプログラム、情報処理方法、電話機及び情報処理システム
JP2006004069A (ja) * 2004-06-16 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> 住所テーブル生成支援方法及び装置及びプログラム
JP2006014216A (ja) * 2004-06-29 2006-01-12 Toshiba Corp 通信端末及び辞書作成方法
JP2006094126A (ja) * 2004-09-24 2006-04-06 Canon Inc 音声合成装置
JP2006155529A (ja) * 2004-12-01 2006-06-15 Toshiba Corp 辞書登録装置、辞書登録方法および辞書登録プログラム
JP2006221532A (ja) * 2005-02-14 2006-08-24 Nec Corp 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム
JP2008046538A (ja) * 2006-08-21 2008-02-28 Internatl Business Mach Corp <Ibm> テキスト音声合成を支援するシステム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
JP2012165859A (ja) * 2011-02-14 2012-09-06 Kita Denshi Corp 遊技機
JP2012045431A (ja) * 2011-12-07 2012-03-08 Konami Digital Entertainment Co Ltd ゲームシステム、データ生成システム、それに用いるデータ生成方法及び、コンピュータプログラム
JP2013235117A (ja) * 2012-05-08 2013-11-21 Yahoo Japan Corp 単語分割装置、及び単語分割方法
KR101235694B1 (ko) 2012-08-14 2013-03-05 다이알로이드(주) 음성인식 시스템 및 그 음성인식 방법
US11455990B2 (en) 2017-11-24 2022-09-27 Samsung Electronics Co., Ltd. Electronic device and control method therefor
WO2023166651A1 (ja) * 2022-03-03 2023-09-07 シャープNecディスプレイソリューションズ株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US9582489B2 (en) Orthographic error correction using phonetic transcription
EP2477186B1 (en) Information retrieving apparatus, information retrieving method and navigation system
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
KR20100029221A (ko) 명칭 엔터티와 신규 단어를 검출하는 것
US20080077392A1 (en) Method, apparatus, system, and computer program product for machine translation
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2009258293A (ja) 音声認識語彙辞書作成装置
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP2000285112A (ja) 予測入力装置及び予測入力方法並びに記録媒体
JP4407510B2 (ja) 音声合成装置及び音声合成プログラム
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
WO2022141710A1 (zh) 一种语音合成方法、装置、设备及存储介质
JP4206253B2 (ja) 自動音声応答装置及び自動音声応答方法
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JP5252209B2 (ja) 読み生成装置
JP2001166790A (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2004301968A (ja) 発話処理装置、発話処理方法及び発話処理用プログラム
JP2006113269A (ja) 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120814

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121204