JP2011064969A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP2011064969A
JP2011064969A JP2009216001A JP2009216001A JP2011064969A JP 2011064969 A JP2011064969 A JP 2011064969A JP 2009216001 A JP2009216001 A JP 2009216001A JP 2009216001 A JP2009216001 A JP 2009216001A JP 2011064969 A JP2011064969 A JP 2011064969A
Authority
JP
Japan
Prior art keywords
speech recognition
paraphrase
original text
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009216001A
Other languages
English (en)
Other versions
JP5693834B2 (ja
Inventor
Fumihiko Aoyama
文彦 青山
Chiharu Takeda
千春 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2009216001A priority Critical patent/JP5693834B2/ja
Publication of JP2011064969A publication Critical patent/JP2011064969A/ja
Application granted granted Critical
Publication of JP5693834B2 publication Critical patent/JP5693834B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声認識対象となる単語の言い換え語が複数存在する場合でも、ユーザが意図する単語を選択することが可能な「音声認識装置及び音声認識方法」を提供すること。
【解決手段】音声認識装置は、外部機器又は媒体から音声認識の対象となる原テキストを入力する入力手段と、原テキストを解析して読みデータを生成する読みデータ生成手段と、音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、音声認識辞書と、入力手段を介して入力された原テキストを記憶手段に格納する制御手段とを有する。制御手段は、原テキストに対する言い換え語を生成し、言い換え語のうち原テキストと一致する言い換え語を特定可能な識別番号をその言い換え語に付与し、言い換え語を読みデータ生成手段に入力して読みデータを取得して、読みデータと認識対象の言い換え語とを関連付けて音声認識辞書に登録する。
【選択図】図4

Description

本発明は、音声認識装置及び音声認識方法に関し、特に、認識対象となる単語の言い換え表現を音声認識して言い換え表現の元の単語を特定可能とする音声認識装置及び音声認識方法に関する。
近年、テキストを入力するとそれを音声で読み上げる機能(TTS(Text To Speech)エンジン)を備えたシステムが開発され、携帯電話の電話応答サービスなどで広く利用されている。例えば、個人向けポータブルサービスで、ユーザの身近にモバイル端末やコンピュータがないという状況でも、電話をかければEメールやニュース、市場動向等の情報を読み上げてくれる音声サービスとして使用されている。
一方、再生用のオーディオ情報を格納した機器をオーディオ装置に接続して、オーディオ情報を基に音楽を再生出力することが行われている。このようなオーディオ情報としては楽曲データがあり、楽曲データには、楽曲のデジタルデータとともに楽曲のタイトルやアーティスト等の情報が記載されたタグデータが含まれている。このタグデータを基にして再生されている楽曲のタイトル等を表示画面に表示したり、TTSエンジンを利用して音声で読み上げることもできるようになってきている。さらに、ユーザから楽曲のタイトルを音声入力して、その楽曲を再生することもできるようになってきている。
ユーザが発話した音声を認識するために、認識できる単語が登録されている音声認識用辞書が不可欠である。認識できる単語が音声認識用辞書に登録されている場合であっても、ユーザは完全な単語ではなく省略した単語を発話する場合もある。このような場合であっても音声認識が可能になるように音声認識用辞書を作成する方法として、特許文献1には、正式名称の一部を脱落、置換、あるいは、倒置することによって正式名称の言い換え語を生成したり、正式名称の個数が所定個以下の言い換え語を音声認識辞書に加えて音声認識辞書を更新する技術が記載されている。
特開2005−338274号公報
上述したように、音声認識の対象となる正式な名称だけでなく、その言い換え語を生成して音声認識辞書に登録しておくことにより、正式な名称を忠実に発話できない場合であっても、ユーザの所望の正式な名称を選択することが可能となる。
例えば、オーディオ情報に含まれる作曲者名を音声認識辞書に登録する際に、正式名称(フルネーム)が記載されている情報を基に、スペース毎に分割した各単語を組み合わせて登録しておくことにより、フルネームをすべて発話する必要がなく、ユーザにとって利便性が向上する。
しかし、このような言い換え語を音声認識辞書に登録することによって、音声認識を行う際に次のような不都合が生じる場合がある。例えば、“A”,“B”及び“C”は一単語を示すものとし、音声認識の対象となる文字が“A B C”、“A B”、“A C”であるとする。これらの文字について、スペース毎に分割した単語も言い換え語に含まれるとすると、すべての文字に対し言い換え語として“A”が存在することになる。このとき、ユーザが“A”と発話すると、“A”を認識した音声認識装置は、認識結果の候補として同一の単語“A”を3つ出力することになる。その結果、ユーザが“A B”を選択したい場合であっても、3つの候補のうちのどれが“A B”に対応するかが不明であるため、ユーザの所望の文字を選択することが不可能となってしまう。
本発明は、かかる従来技術の課題に鑑みなされたものであり、音声認識対象となる単語の言い換え表現による認識結果が複数存在する場合であっても、ユーザが意図する単語を選択することが可能な音声認識装置及び音声認識方法を提供することを目的とする。
上述した従来技術の課題を解決するため、本発明の基本形態によれば、外部機器又は媒体から音声認識の対象となる原テキストを入力する入力手段と、前記原テキストを解析して読みデータを生成する読みデータ生成手段と、前記原テキストに対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、前記読みデータと前記認識対象の原テキストとが関連付けて格納される音声認識辞書と、前記入力手段を介して入力された前記原テキストを前記記憶手段に格納する制御手段と、を有し、前記制御手段は、前記原テキストに対して前記変換規則を適用して言い換え語を生成して、当該言い換え語のうち前記原テキストと一致する言い換え語を特定可能な識別情報を当該言い換え語に付与し、前記言い換え語を前記読みデータ生成手段に入力して読みデータを取得して、当該読みデータと認識対象の前記言い換え語とを関連付けて前記音声認識辞書に登録することを特徴とする音声認識装置が提供される。
この形態に係る音声認識装置において、さらに、ユーザの発話を入力する音声入力手段と、ユーザの発話を認識する音声認識手段と、表示手段と、前記音声入力手段及び音声認識手段を制御する音声認識制御手段と、を有し、前記音声認識制御手段は、前記音声認識手段によりユーザの発話に対応するテキストを取得し、当該テキストの元になった原テキストを前記音声認識辞書から抽出して、前記表示手段の画面に出力するようにしてもよく、前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、当該言い換え語の元になった原テキストを取得する識別情報を生成して、当該識別情報を基に前記音声認識辞書から当該原テキストを抽出するようにしてもよく、前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該発話に対応するテキストを前記音声認識辞書から抽出するようにしてもよい。
また、本発明の他の形態によれば、音声認識の対象となる原テキストを取得するステップと、前記原テキストに対する言い換え語を記憶手段に格納されている変換規則を基に生成するステップと、前記言い換え語のうち前記原テキストと一致する言い換え語を特定可能な識別情報を当該言い換え語に付与するステップと、前記言い換え語を音声データに変換して読みデータを取得するステップと、前記読みデータと認識対象の前記言い換え語とを関連付けて音声認識用辞書に登録するステップと、を有することを特徴とする音声認識方法が提供される。
この形態に係る音声認識方法において、前記音声認識用辞書に登録するステップの後に、ユーザの発話を入力して音声認識するステップと、前記音声認識の結果に応じて前記原テキストを取得するステップと、前記原テキストに対する識別情報を基に原テキストによる結果出力を行うステップと、を含むようにしてもよく、前記音声認識の結果に応じて前記原テキストを取得するステップでは、前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、原テキストを取得するための識別情報を生成するステップと、当該識別情報を基に原テキストを前記音声認識辞書から抽出するステップと、を含むようにしてもよく、前記音声認識の結果に応じて前記原テキストを取得するステップでは、前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該ユーザの発話に対応するテキストを前記音声認識辞書から抽出するステップを含むようにしてもよい。
本発明の音声認識装置及び音声認識方法によれば、認識対象となるテキストに対して言い換え語を作成するとき、言い換え語のうち、言い換え語の元となった原テキストと一致する言い換え語を特定可能な識別情報を、その言い換え語に付与している。そして、音声認識をしたときに、認識結果に言い換え語が含まれていると判断されれば、言い換え語に付与された識別情報から原テキストに対応する特定の識別情報を生成し、その識別情報を基に原テキストを取得して出力するようにしている。これにより、ユーザの発話した言い換え語を認識した結果、複数の同一のテキストが結果として出力されることがなく、それぞれの言い換え語の元のテキストが出力されるようになり、認識結果からどの項目を選択してよいか特定できないという状況を回避することが可能になる。
本発明の一実施形態に係る音声認識装置の構成を示すブロック図である。 図2(a)は、楽曲情報のうちの作曲者名と楽曲IDとの対応関係の一例であり、図2(b)は、音声認識の対象となる文字列とその識別情報との対応関係の一例を示す図である。 図3は、本実施形態の音声認識装置による認識結果の出力画面の一例を示す図である。 音声認識辞書作成処理の一例を示すフローチャートである。 音声認識辞書作成処理において生成される言い換え語のデータを説明する図である。 音声認識処理の一例を示すフローチャートである。 音声認識処理において生成される言い換え語のデータを説明する図である。 本実施形態の音声認識装置を電話帳データに適用した一例を示す図である。
以下、本発明の実施形態について、添付の図面を参照して説明する。
図1は、本発明の一実施形態に係る音声認識辞書作成装置100を含む音声認識装置200の構成を示した図である。
本実施形態に係る音声認識辞書作成装置100は、図1に示すように、入力部1と、記憶部2と、情報抽出部4と、TTSエンジン5と、制御部6と、音声認識辞書生成部7と、音声認識辞書8とを備えている。
さらに、音声認識処理を含む音声認識装置200としては、音声認識制御部11と、音声認識エンジン9と、マイクロフォン10と、音声認識辞書管理部12と、メモリ13と、表示部14とを備えている。
入力部1は、各種機器(デバイス)や媒体が接続される。例えば、デジタルオーディオ機器やCD,DVD,携帯電話等が接続される。デジタルオーディオ機器としては、例えば、iPod(登録商標:アップル・コンピュータ社製のデジタル音楽プレーヤー)や、HDDオーディオ、CDテキストがある。HDDオーディオは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーである。また、CDテキストは、CD−TEXT規格に対応したプレーヤーであり、CDのタイトルや作曲家などのテキスト情報が表示されるものである。
デジタルオーディオ機器には、例えば、インターネット等を介して配信されたMP3形式等の楽曲ファイルをパーソナルコンピュータ(PC)にいったんダウンロードし、さらにこのPCから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報(タイトル、アーティスト名、アルバム名などであり、本実施形態では、コンテンツとも呼ぶ)が含まれている。
記憶部2は、ハードディスクや半導体メモリ等で構成され、入力部1から入力した各種デバイスに格納されている情報(例えば、CDの場合は楽曲データ2aであり、携帯電話機の場合は、住所録のデータである)が格納される。また、記憶部2には、楽曲情報が含まれたデータベースCDDB2bが構成されている。
情報抽出部4では、入力された各種デバイスに記録されている情報から、音声認識辞書8の登録語彙の対象となるテキストを抽出する。例えば、CDが入力媒体の場合、楽曲データ2aからCDDB2bを参照して、タイトルやアーティストや作曲者などのコンテンツ情報を抽出する。
TTSエンジン5は、テキスト解析部5aと読みデータ生成部5bで構成されている。また、TTSエンジン5には、音声合成を実行する際に使用する辞書(言語解析辞書、音声合成辞書)が用意されている。言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、テキスト解析部5aで解析されたテキスト情報をその対応する音声(波形)データに変換する際に参照する辞書である。
テキスト解析部5aでは、情報抽出部4で抽出されたテキスト(文字列)が入力されると、言語解析辞書を基にしてテキストを解析し、読みデータ生成部5bにおいて、読みとアクセントを記した文字列である中間言語(読みデータ)を生成する。
音声認識辞書生成部7は、読みデータ生成部5bで生成された読みデータをDB化して音声認識辞書8に格納する。
音声認識辞書8は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン9で使用する音声認識辞書が格納されている。
制御部6は、マイクロコンピューターにより構成され、上記各部の制御を行って、入力デバイスや媒体に保存されている音声認識の対象とするテキストから読みデータを生成させて音声認識辞書を作成する。具体的には、記憶部2に保存した各種データから、情報抽出部4において音声認識辞書の対象となる単語(テキスト)を抽出させ、TTSエンジン5においてテキストの読みデータを生成させ、音声認識辞書生成部7で音声認識辞書を生成させる。
ユーザの発話した音声の認識処理は、以下の各部の処理によって行われる。
音声認識制御部11は、認識対象としたい語彙を音声認識辞書8から音声認識辞書管理部12を介してメモリ13に展開し、音声認識の対象とする。また、音声認識制御部11は、マイクロフォン10を介して入力したユーザの発話音声を音声認識エンジン9に認識させる。
音声認識エンジン9は、入力された音声を音響分析して特徴量を抽出し、特徴量と音響モデルを照合して複数の発音記号列を得る。この発音記号列を基に認識対象となっている語彙の中から尤もらしい語彙を選択する。認識された結果をもとに、ユーザの要求に応じた情報を表示部14に表示する。
このように構成された音声認識装置200に、楽曲データが格納されたデジタルオーディオ機器が接続されると、楽曲データに付随した楽曲名等の情報が含まれている楽曲情報を基にして、音声認識辞書生成用の文字列が生成され、楽曲情報と関連付けられた文字列の読みデータが音声認識辞書に登録される。音声認識用の文字列の生成では、言い換え語を生成するとともに、言い換え語の元のオリジナル文字列との関係を明確にし、オリジナル文字列は特定の識別コードで表すようにしている。
以下に、言い換え語の元の文字列を特定容易にするための音声認識辞書の生成及び音声認識処理について説明する。本実施形態では、デジタルオーディオ機器に格納された楽曲が再生出力される音声認識装置200を対象とする。
音声認識装置200にデジタルオーディオ機器が接続されると、デジタルオーディオ機器に格納されている楽曲情報(楽曲のジャンル、楽曲名、作曲者名、アーティスト名、アルバム名が含まれる)を基にして音声認識用の辞書を作成する。
図2及び図3は、本実施形態の音声認識辞書生成方法によって生成された音声認識辞書と、それを用いた音声認識結果の出力の一例を示した図である。
図2は、音声認識用辞書の生成例を示しており、図2(a)は、音声認識装置200に入力される楽曲情報であり、図2(b)は図2(a)の楽曲情報を基に生成された言い換え語を含む音声認識用の辞書の一例である。
図2(a)は、4つの作曲者名とそれらに対応する識別情報(楽曲ID)を示している。識別情報は、例えば16進数の数値で表している。これらの各作曲者名を基にして言い換え語を所定の規定に基づいて作成し、認識対象文字列を生成する。
図2(b)は、これら4つの作曲者名からそれぞれ言い換え語を生成し、音声認識の対象となる文字列を生成した例を示している。例えば、作曲者名"Fresh Nelly"に対して、スペースを区切り記号として作曲者名を分割し、分割した単語を基に生成した語を言い換え語として音声認識辞書に登録する。その結果、"Fresh"、"Nelly"、"Fresh Nell"の3つが言い換え語として登録される。これらの言い換え語は元の文字列が何であるかが分かるように、生成された言い換え語に関連付けて、元の楽曲IDが識別情報(単語ID)として記録されている。
また、言い換え語が元の文字列と同一の場合には、特別な識別情報(図2(b)では上位ビットを1とした数値)が付与されている。これにより、複数の同一な言い換え語を認識した場合であっても、その元の文字列を容易に特定することが可能となる。
このように、本実施形態では、言い換え語などの認識対象文字列を識別するために16ビットの識別コードを用いているが、各認識対象文字列を特定できるものであればよい。例えば、上位4ビットに“1”をたてるようにしてもよい。
これらの変換された文字列をTTSエンジン6に入力して、各文字列に対応する読みデータを取得し、読みデータと各文字列が属する楽曲情報とを関連付けて音声認識辞書10bに登録する。
図2(a)の他の作曲者名に対しても、同様に言い換え語を生成し、識別情報とともに認識辞書を作成する。
図3は、図2(b)に示した音声認識辞書が登録されている場合の音声認識結果における作曲者名選択画面31の一例を示した図である。図3は、ユーザが“ネリー”と発話した場合の作曲者選択画面31を示している。音声認識装置は“ネリー”という音声を認識して、音声認識辞書に登録されている"Nelly"を検出する。図2(b)に示した音声認識辞書を使用すると、4個の"Nelly"が選択され、作曲者選択画面31のリスト32a〜32dにはそれぞれ"Nelly"の元の文字列である"Fresh Nelly"、"Nelly"、"Nelly & st. lunatics"、"Nelly Furtado"が表示されている。この状態からリスト32aの"Fresh Nelly"が選択されると、楽曲ID"0x0001"に対応する楽曲が再生される。
次に、制御部6で行われる音声認識辞書の生成処理について図4のフローチャートを参照しながら説明する。この処理において、楽曲情報に応じた音声認識辞書生成用の文字列に変換するための変換規則は予め定義され記憶部10に格納されているものとする。
まず、図4のステップS11において、入力部に接続されたデジタルオーディオ機器から楽曲情報を取得し、各楽曲情報のオリジナル文字列(原テキスト)とその楽曲の識別情報である楽曲IDとの対応関係を示したリストを作成する。楽曲情報としては、作曲者名、アーティスト名、楽曲名、ジャンル名などが含まれる。
図5(a)は、対応関係のリストの一例を示している。図5(a)では、楽曲情報を作曲者名とし、4つの作曲者名とそれに対応する楽曲IDを示している。
次のステップS12では、オリジナル文字列に対して、言い換え語を生成する。この言い換え語は、適宜決められた規則により生成される。例えば、複数の単語が含まれる楽曲情報の場合には、それぞれの単語に分割し、分割された単語の組み合わせによって作成するようにしてもよい。また、言い換え語が多数生成される場合には、使用される可能性の低い言い換え語を排除するなどするようにしてもよい。
生成される言い換え語は、どのオリジナル文字列から生成されたものかが分かるように、各言い換え語には作成の元となったオリジナル文字列の楽曲IDが付与される。
図5(b)は、図5(a)に示した作曲者名(オリジナル文字列)のうち、"Nell & st. lunatics"に対する言い換え語の生成例を示している。この例では、オリジナル文字列を“&”毎に分割した単語を基に生成したものである。これらの生成された言い換え語の元の文字列は、"Nelly & st. lunatics"であるため、その楽曲IDを関連付けて単語IDとしている。
次のステップS13において、オリジナル文字列の楽曲IDをオリジナル文字列であることが分かるように特定のIDに変換する。本実施形態では、16進数で表される楽曲IDの上位ビットを1にするように楽曲IDを変換している。
図5(c)において、言い換え語として記録される"Nelly & st. lunatics"はオリジナル文字列と同一であるため、単語IDにオリジナル文字列であることがわかるように、上位ビットを“1”にして"0x8003"とし、他の言い換え語とは区別している。
なお、オリジナル文字列であることが分かるようにできれば、その他の方法で楽曲IDを変換するようにしてもよい。
次のステップS14において、オリジナル文字列のすべてに対してステップS13の処理を行ったか否かを判定する。すべて処理が終了していない場合はステップS12に移行し、ステップS11で作成したリストの他の楽曲IDに対して同様の処理を行う。すべて処理が終了した場合は、ステップS15に移行する。
図5(d)に、図5(a)に示したすべてのオリジナル文字列に対して言い換え語を生成し、単語IDにオリジナル文字列であることがわかるようにする変換処理(オリジナル文字列取得ID付与処理)を施した結果を示している。
次のステップS15において、制御部6は音声認識辞書生成部7に音声認識辞書を作成させる。読みデータと楽曲情報とを関連付けて音声認識辞書10bに登録する。
次に、図6及び図7を参照して、発話された単語が言い換え語を含み、認識結果が複数同一の文字列となる場合であっても言い換え語に対応する元の文字列を特定可能とする、音声認識制御部11において行われる音声認識処理について説明する。
まず、図6のステップS21において、音声認識を実行する。音声認識制御部11は、マイクロフォン10を介して入力されたユーザの発話音声を音声認識エンジン9に認識させる。
次のステップS22において、音声認識結果を取得する。
次のステップS23において、ステップS22において認識された結果が、オリジナル文字列(原テキスト)か否かを判定する。オリジナル文字列の場合はステップS26に移行し、オリジナル文字列でない場合には、ステップS24に移行する。
図7(a)は、認識結果の一例を示している。例えば、ユーザが“ネリー”と発話したとすると、図5(d)に示される音声認識辞書を基に、図7(a)に示す4つの"Nelly"がヒットする。これらの4つの"Nelly"について順にオリジナル文字列か否かを判定する。1番目の“Nelly”は単語IDが"0x0001"であり、上位ビットが“1”ではないため、オリジナル文字列ではないと判定される。3番目及び4番目の“Nelly”も同様にオリジナル文字列ではないと判定される。一方、2番目の“Nelly”は、上位ビットが“1”であるため、オリジナル文字列であると判定される。
次のステップS24において、オリジナル文字列取得IDを生成する。オリジナル文字列取得IDは、単語IDの上位ビットが1になるような変換処理を施すことによって生成する。図7(b)は、オリジナル文字列ではないと判定された認識文字列の単語IDをオリジナル文字列取得IDに変換した例を示している。例えば、単語IDが“0x0001”の“Nelly”に対して、“0x8000”を加算することによりオリジナル文字列取得ID“0x8001”に変換する。その他のオリジナル文字列でない認識結果に対しても同様にオリジナル文字列取得IDに変換する。
次のステップS25において、ステップS24で生成されたオリジナル文字列取得IDを基に、記憶部2に格納されているオリジナル文字列を検索する。図7(c)は、検索された結果を示している。
一方、ステップS23において認識文字列がオリジナル文字列と判定されたときは、オリジナル文字列を取得するための処理(ステップS24及びステップS25の処理)は必要ないため、ステップS26に移行する。
次のステップS26において、楽曲IDを生成する。図7(d)は、ステップS25で取得されたオリジナル文字列と、ステップS23においてオリジナル文字列と判定された文字列とを示している。これらのオリジナル文字列から図7(e)に示すように、対応する楽曲IDを算出する。すなわち、各オリジナル文字列の単語IDから特定の値を減算することによって、楽曲IDを算出する。
なお、本実施形態では、オリジナル文字列取得のための識別コードを16進数の最上位ビットを“1”としたため、"0x8000"を減算することによって楽曲IDを算出したが、識別情報の表し方に応じて適宜処理される。
次のステップS27において、ステップS25で生成されたオリジナル文字列を基に、認識結果の選択画面を表示部14の画面に表示する。その後、選択画面で選択された項目に従って、楽曲を再生する。
以上説明したように、本実施形態の音声認識装置及び音声認識方法によれば、認識対象となるテキストに対して言い換え語を作成するとき、言い換え語のうち、言い換え語の元となった原テキストと一致する言い換え語を特定可能な識別情報を、その言い換え語に付与している。そして、音声認識をしたときに、認識結果に言い換え語が含まれていると判断されれば、言い換え語に付与された識別情報から原テキストに対応する特定の識別情報を生成し、原テキストを取得し、原テキストを出力するようにしている。これにより、ユーザの発話した言い換え語を認識した結果、複数の同一のテキストが結果として出力されることがなく、それぞれの言い換え語の元のテキストが出力されるようになり、認識結果からどの項目を選択してよいか特定できないという状況を回避することが可能になる。
なお、本実施形態では、音声認識の対象となる文字列として楽曲情報を例にとって説明したが、これに限定されない。例えば、携帯電話機に格納されている電話帳データを車載器に取り込んで、車載器からハンズフリーで電話をかける際の音声認識にも適用可能である。
図8は、電話帳データの登録及び利用の一例を示している。図8(a)は、電話帳データに登録されているオリジナル文字列(名前)とその識別情報(ID)を対応付けたリストである。図8(b)は、図8(a)のオリジナル文字列を基に、言い換え語を生成し、さらに、オリジナル文字列とその他の文字列との区別をつけた識別情報(単語ID)との対応関係を示している。
この図8(b)の情報が音声認識辞書に登録されているとき、ユーザが“タケダ”と発話すると、音声認識装置は、図8(b)の"TAKEDA"を検出する。図8(b)に示すように、"TAKEDA"は2つ存在するが、その単語ID("0x0001","0x0002")を基にオリジナル文字列取得処理を施して、"SHINGEN TAKEDA"と"TAKEDA CHIHARU"を抽出し、図8(c)の氏名選択画面81に示すように認識結果の出力表示を行う。図8(c)の氏名選択画面81では、氏名認識候補82a、82bに氏名がフルネームで表示されるようになる。
これにより、言い換え語として“タケダ”が複数存在するときであっても、“タケダ”と発話されたときに、その元となった文字列を表示することが可能となり、ユーザに所望の名前を選択させることが可能となる。
100…音声認識辞書作成装置、
200…音声認識装置、
1…入力部、
2…記憶部、
4…情報抽出部、
5…TTSエンジン、
5a…テキスト解析部、
5b…読みデータ生成部、
6…制御部、
7…音声認識辞書生成部、
8…音声認識辞書、
9…音声認識エンジン、
11…音声認識制御部、
31…作曲者名選択画面、
81…氏名選択画面。

Claims (8)

  1. 外部機器又は媒体から音声認識の対象となる原テキストを入力する入力手段と、
    前記原テキストを解析して読みデータを生成する読みデータ生成手段と、
    前記原テキストに対して音声認識辞書用の文字列に変換する変換規則が格納された記憶手段と、
    前記読みデータと前記認識対象の原テキストとが関連付けて格納される音声認識辞書と、
    前記入力手段を介して入力された前記原テキストを前記記憶手段に格納する制御手段と、
    を有し、
    前記制御手段は、前記原テキストに対して前記変換規則を適用して言い換え語を生成して、当該言い換え語のうち前記原テキストと一致する言い換え語を特定可能な識別情報を当該言い換え語に付与し、前記言い換え語を前記読みデータ生成手段に入力して読みデータを取得して、当該読みデータと認識対象の前記言い換え語とを関連付けて前記音声認識辞書に登録することを特徴とする音声認識装置。
  2. さらに、ユーザの発話を入力する音声入力手段と、
    ユーザの発話を認識する音声認識手段と、
    表示手段と、
    前記音声入力手段及び音声認識手段を制御する音声認識制御手段と、
    を有し、
    前記音声認識制御手段は、前記音声認識手段によりユーザの発話に対応するテキストを取得し、当該テキストの元になった原テキストを前記音声認識辞書から抽出して、前記表示手段の画面に出力することを特徴とする請求項1に記載の音声認識装置。
  3. 前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、当該言い換え語の元になった原テキストを取得する識別情報を生成して、当該識別情報を基に前記音声認識辞書から当該原テキストを抽出することを特徴とする請求項2に記載の音声認識装置。
  4. 前記音声認識制御手段は、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該発話に対応するテキストを前記音声認識辞書から抽出することを特徴とする請求項2に記載の音声認識装置。
  5. 音声認識の対象となる原テキストを取得するステップと、
    前記原テキストに対する言い換え語を記憶手段に格納されている変換規則を基に生成するステップと、
    前記言い換え語のうち前記原テキストと一致する言い換え語を特定可能な識別情報を当該言い換え語に付与するステップと、
    前記言い換え語を音声データに変換して読みデータを取得するステップと、
    前記読みデータと認識対象の前記言い換え語とを関連付けて音声認識用辞書に登録するステップと、
    を有することを特徴とする音声認識方法。
  6. 前記音声認識用辞書に登録するステップの後に、
    ユーザの発話を入力して音声認識するステップと、
    前記音声認識の結果に応じて前記原テキストを取得するステップと、
    前記原テキストに対する識別情報を基に原テキストによる結果出力を行うステップと、
    を含むことを特徴とする請求項5に記載の音声認識方法。
  7. 前記音声認識の結果に応じて前記原テキストを取得するステップでは、
    前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語であると判定したとき、原テキストを取得するための識別情報を生成するステップと、
    当該識別情報を基に原テキストを前記音声認識辞書から抽出するステップと、
    を含むことを特徴とする請求項6に記載の音声認識方法。
  8. 前記音声認識の結果に応じて前記原テキストを取得するステップでは、
    前記音声認識の結果、前記ユーザの発話に対応するテキストが言い換え語でないと判定したとき、当該ユーザの発話に対応するテキストを前記音声認識辞書から抽出するステップを含むことを特徴とする請求項6に記載の音声認識方法。
JP2009216001A 2009-09-17 2009-09-17 音声認識装置及び音声認識方法 Active JP5693834B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009216001A JP5693834B2 (ja) 2009-09-17 2009-09-17 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009216001A JP5693834B2 (ja) 2009-09-17 2009-09-17 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2011064969A true JP2011064969A (ja) 2011-03-31
JP5693834B2 JP5693834B2 (ja) 2015-04-01

Family

ID=43951272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009216001A Active JP5693834B2 (ja) 2009-09-17 2009-09-17 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP5693834B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013167739A (ja) * 2012-02-15 2013-08-29 Denso Corp 音声認識システム
WO2013157174A1 (ja) * 2012-04-16 2013-10-24 株式会社デンソー 音声認識装置
JP6408654B1 (ja) * 2017-06-16 2018-10-17 株式会社オプトン 検査装置
CN112068793A (zh) * 2019-06-11 2020-12-11 北京搜狗科技发展有限公司 一种语音输入方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034290A (ja) * 1999-07-26 2001-02-09 Omron Corp 音声応答装置および方法、並びに記録媒体
JP2004133003A (ja) * 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置
JP2005031255A (ja) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp 辞書作成装置及び音声認識装置
JP2005037838A (ja) * 2003-07-18 2005-02-10 Fujitsu Ltd 認識文法作成システム
JP2005043654A (ja) * 2003-07-22 2005-02-17 Denso Corp 楽曲情報配信システム
JP2005338274A (ja) * 2004-05-25 2005-12-08 Mitsubishi Electric Corp 音声対話装置
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置
JP2008134502A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2009080579A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 検索装置、方法及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034290A (ja) * 1999-07-26 2001-02-09 Omron Corp 音声応答装置および方法、並びに記録媒体
JP2004133003A (ja) * 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置
JP2005031255A (ja) * 2003-07-09 2005-02-03 Mitsubishi Electric Corp 辞書作成装置及び音声認識装置
JP2005037838A (ja) * 2003-07-18 2005-02-10 Fujitsu Ltd 認識文法作成システム
JP2005043654A (ja) * 2003-07-22 2005-02-17 Denso Corp 楽曲情報配信システム
JP2005338274A (ja) * 2004-05-25 2005-12-08 Mitsubishi Electric Corp 音声対話装置
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置
JP2008134502A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2009080579A (ja) * 2007-09-25 2009-04-16 Toshiba Corp 検索装置、方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013167739A (ja) * 2012-02-15 2013-08-29 Denso Corp 音声認識システム
WO2013157174A1 (ja) * 2012-04-16 2013-10-24 株式会社デンソー 音声認識装置
JP2013222033A (ja) * 2012-04-16 2013-10-28 Denso Corp 音声認識装置
CN104246872A (zh) * 2012-04-16 2014-12-24 株式会社电装 声音识别装置
US9704479B2 (en) 2012-04-16 2017-07-11 Denso Corporation Speech recognition device
JP6408654B1 (ja) * 2017-06-16 2018-10-17 株式会社オプトン 検査装置
CN112068793A (zh) * 2019-06-11 2020-12-11 北京搜狗科技发展有限公司 一种语音输入方法及装置

Also Published As

Publication number Publication date
JP5693834B2 (ja) 2015-04-01

Similar Documents

Publication Publication Date Title
US8719028B2 (en) Information processing apparatus and text-to-speech method
JP2011033874A (ja) 多言語音声認識装置及び多言語音声認識辞書作成方法
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US9153233B2 (en) Voice-controlled selection of media files utilizing phonetic data
KR101788500B1 (ko) 이름 발음을 위한 시스템 및 방법
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
JP2009505321A (ja) 再生装置の動作を制御する方法およびシステム
JP2013195823A (ja) 対話支援装置、対話支援方法および対話支援プログラム
JP5693834B2 (ja) 音声認識装置及び音声認識方法
JP5465926B2 (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
JP2009210790A (ja) 選曲歌手分析推薦装置、その方法及びプログラム
JP4697432B2 (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
JP2003271182A (ja) 音響モデル作成装置及び音響モデル作成方法
JP5431817B2 (ja) 楽曲データベース更新装置及び楽曲データベース更新方法
JP2009204872A (ja) 音声認識用辞書生成システム
JP2004294577A (ja) 文字情報音声変換方法
JP4244661B2 (ja) 音声データ提供システムならびに音声データ作成装置および音声データ作成プログラム
JPH11242496A (ja) 情報再生装置
JP2010156925A (ja) 情報処理装置及び音声認識辞書生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150204

R150 Certificate of patent or registration of utility model

Ref document number: 5693834

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150