JP2008021235A - 読み登録システム及び読み登録プログラム - Google Patents

読み登録システム及び読み登録プログラム Download PDF

Info

Publication number
JP2008021235A
JP2008021235A JP2006194228A JP2006194228A JP2008021235A JP 2008021235 A JP2008021235 A JP 2008021235A JP 2006194228 A JP2006194228 A JP 2006194228A JP 2006194228 A JP2006194228 A JP 2006194228A JP 2008021235 A JP2008021235 A JP 2008021235A
Authority
JP
Japan
Prior art keywords
reading
input
word
character string
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006194228A
Other languages
English (en)
Inventor
Akihiro Oya
章博 大矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2006194228A priority Critical patent/JP2008021235A/ja
Publication of JP2008021235A publication Critical patent/JP2008021235A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】データベースを有効に利用して文字列の読みを設定する。
【解決手段】データベース(CDDB及び地図情報)に記憶されている文字列に含まれる単語とその読みとを対応づけた変換テーブルをあらかじめ生成しておき、読みを登録する対象となる単語をユーザから入力した場合に(S201)、入力された単語の読みを変換テーブルに基づき設定する(S204)。このため、ユーザから入力された単語自体が文字列としてデータベースに登録されていなくても、文字列の一部として登録されていればその単語の読みを抽出することが可能となる。
【選択図】図4

Description

本発明は、文字列の読みを設定するための読み登録システム及び読み登録プログラムに関するものである。
従来、例えば、車両に搭載されて用いられるナビゲーション装置、オーディオ装置、ハンズフリー装置などでは、運転者の運転操作を妨げないように、音声による指示を認識する音声認識機能や、音声による報知を行う音声出力機能が利用されている。このような機能では、文字列とその読みとの対応関係に基づき、入力された音声(読み)に対応する文字列を判断したり、文字列に対応する音声(読み)を出力したりする。また、こうした音声認識機能や音声出力機能以外にも、例えば文字列を五十音で検索したり五十音順に並べたりするような場合にも、文字列と読みとの対応関係に基づく処理が行われる。
ところで、あらかじめ記憶されていない文字列について音声認識機能等を利用する場合には、その文字列の読みを新たに登録する必要がある。この場合、日本語のひらがなやカタカナ、ハングル文字、中国語のPinyinのように文字列の読みが一義的に決まる表音文字であれば、文字列のみの入力により読みの入力を省略することも可能である。しかしながら、英語(A:「エイ」、「ア」)や漢字(音:「おん」、「おと」)などのように文字列の読みが一義的に決まらないものについては、ユーザに読み(例えば発音記号)を入力させる必要がある。
なお、この種の関連技術として、例えば特許文献1には、リッピングした楽曲データ等のコンテンツデータを、音声入力によって自由かつ簡単に指定できるようにした再生装置が開示されている。この再生装置は、楽曲データを再生させる場合に音声入力によって再生対象を指定することができるのであるが、アーティスト名、アルバム名、曲名という3種類の認識辞書と認識語とをそれぞれ比較した検索を行うため、これらいずれのカテゴリからも検索が可能である。そして、アーティスト名、アルバム名、曲名の内で同じ名称のものが存在する場合には、表示部に画面表示している内容の認識カテゴリ名に一意に決定するようにしている。
また、例えば特許文献2には、データベースを適切なタイミングで、適切な内容に、しかも簡単かつ確実に更新できるようにした情報更新システムが開示されている。この情報更新システムにおいて、HD装置に形成される音声認識のための単語用データベースは、マイクロホン、音声認識処理部を通じて入力された音声情報に合致する単語データが無かった場合などにサーバ装置に対して更新要求を通信I/Fを通じて送信する。そして、外部から単語用データベースを更新するための更新データを得て、単語用データベースを更新し、入力された音声情報に合致する単語データが見つからないという状態を防止することにより、音声情報によって適切な処理を行うことができるようにする。
さらに、例えば特許文献3には、個人がCD等より音楽コンテンツを大容量記憶装置に移植して逐次ライブラリを充実させる方式のミュージックサーバ装置が開示されている。このようなミュージックサーバ装置において、ライブラリに新しく受け入れる音楽コンテンツを加えるごとに当該曲のファイル名を入力する作業は、鑑賞ムードを壊し、手間が掛かる好ましくないプロセスである。そこで、ミュージックサーバ装置の大容量記憶装置にタイトル、アーティスト等を記述する「よみ」を索引できるデータベースを設置しておく。そして、新しく受け入れる音楽コンテンツはインターネットを介してTOC等を受け取って「よみ」を提供するデータベース・サービス事業者より「よみ集合」をダウンロードして当該コンテンツのファイル名を「よみ集合」中の例えばカタカナにより自動採番を行って前述データベースに加える。ディスプレイ装置には「よみ集合」を構成するカタカナ、ひらがな、ローマ字、漢字混じ文字等複数の「よみ」のうちから可能で好適なものを表示する。
特開2005−78705号公報 特開2004−164466号公報 特開2004−206648号公報
上述したように、文字列の読みが一義的に決まらないものについては、ユーザに読みを入力させる(定義させる)必要があるが、ユーザにとっては面倒な作業となる。そこで、文字列及びその読みが記憶されたデータベースを利用して、入力された文字列の読みを設定することが考えられる。例えば、ユーザから入力された文字列の読みを、音楽CDに収録された楽曲に関する情報を提供するためのデータベースであるCDDB(CD DataBase)を利用して設定することが可能である。
しかしながら、このような手法では、データベースに記憶されている文字列そのものが入力されない限り読みが設定されないため、データベースが有効に利用されないという問題がある。
本発明は、こうした問題にかんがみてなされたものであり、データベースを有効に利用して文字列の読みを設定することを目的としている。
上記目的を達成するためになされた本発明の請求項1に記載の読み登録システムでは、入力手段が、読みを登録する対象となる単語を入力し、設定手段が、入力手段により入力された単語の読みを記憶情報に基づき設定する。
具体的には、設定手段は、文字列及びその読みが記憶されたデータベースを元に、入力手段により入力された単語が含まれる文字列の読みから、その単語に対応する部分の読みを抽出することにより、入力手段により入力された単語の読みを設定する。
そして、登録手段が、設定手段により設定された読みを登録する。
つまり、本発明の読み登録システムでは、文字列及びその読みが記憶されたデータベースから、その文字列自体を検索するのではなく、その文字列の一部として含まれている単語を抽出し、その単語の読みを文字列の読みから抽出する。このようにすることで、単語自体が文字列として登録されていなくても、文字列の一部として単語が登録されていれば、その単語の読みを抽出することが可能となる。
したがって、本発明の読み登録システムによれば、データベースを有効に利用して文字列の読みを設定することができる。
ところで、データベースに記憶されている情報の量が膨大である場合には、文字列に含まれる単語を検索する処理に時間がかかる。
そこで、請求項2に記載の読み登録システムでは、設定手段は、文字列及びその読みが記憶されたデータベースに基づき、文字列に含まれる単語とその読みとを対応づけた記憶情報をあらかじめ生成する。そして、入力手段により入力された単語の読みをその記憶情報に基づき設定する。
つまり、単語が入力された後に、その単語をデータベースを元に検索するのではなく、データベースに記憶されている文字列に含まれる単語とその読みとを対応づけた記憶情報をあらかじめ生成しておき、その記憶情報に基づき単語を検索するのである。
したがって、本発明の読み登録システムによれば、単語が入力されてからその読みを設定するまでに要する時間を短くすることができる。
ただし、入力された単語がデータベースに存在しないことも考えられる。
そこで、請求項3に記載の読み登録システムでは、設定手段は、入力手段により入力された単語の読みをデータベースに記憶されている情報に基づき設定できなかった場合には、その単語の読みをあらかじめ決められたルールに従い設定する。ここで、あらかじめ決められたルールとしては、その単語(又は単語を構成する各文字)の一般的な読み方が挙げられる。
このような構成の読み登録システムによれば、データベースに存在しない単語が入力された場合にも、ユーザによる読みの入力を省略させることが可能となる。
一方、設定された読みがユーザの意図する読みとは異なることも考えられる。
そこで、請求項4に記載の読み登録システムでは、登録手段は、設定手段により設定された読みを登録すべきか否かをユーザからの指示に基づき判定し、登録すべきであると判定した場合にその読みを登録する。
このような構成の読み登録システムによれば、ユーザの意図しない読みが自動的に登録されてしまうことを防ぐことができる。
具体的には、請求項5に記載の読み登録システムでは、登録手段は、設定手段により設定された読みを登録すべきでないと判定した場合には、入力手段により入力された単語の読みをユーザから入力してその読みを登録する。そして、設定手段が、ユーザから入力した単語とその読みとを対応づけた記憶情報を生成する。
このような構成の読み登録システムによれば、ユーザの意図する読みを登録することができる。また、ユーザから入力した単語とその読みとを対応づけた記憶情報を生成するため、以降に同じ単語が入力された場合には、記憶情報に基づきその読みを設定することができる。
また、ユーザから入力された単語に対し、複数の読みが設定されることも考えられる。
そこで、請求項6に記載の読み登録システムでは、登録手段は、設定手段により複数の読みが設定された場合には、いずれの読みを登録すべきかをユーザからの指示に基づき判定し、登録すべきであると判定された読みを登録する。
このような構成の読み登録システムによれば、ユーザの意図する読みを簡単な操作で登録することが可能となる。
ところで、本発明の読み登録システムは、例えば車両に搭載されて用いられる車載装置のように、装置単体として構成することができる。この場合、装置内で閉じた形で処理を行う構成とすることも可能であるが、例えば請求項7のように外部のデータベースを利用して処理を行う構成とすることも可能である。
すなわち、請求項7に記載の読み登録システムでは、設定手段は、文字列及びその読みが記憶された外部のデータベースと通信可能に構成され、その外部のデータベースを元に、入力手段により入力された単語の読みを設定する。
このような構成の読み登録システムによれば、装置内で閉じた形で処理を行う構成に比べ、最新のデータベースを利用しやすくすることができる。この結果、ユーザの意図する読みが設定されやすくすることができる。
具体的には、例えば請求項8に記載のように、設定手段が、外部のデータベースを元に設定した単語の読みについての課金処理を実行するようにしてもよい。
このような構成の読み登録システムによれば、外部のデータベースから単語の読みを有料で提供するビジネスモデルを実現することが可能となる。
次に、請求項9に記載の読み登録プログラムは、請求項1から請求項8までのいずれか1項に記載の読み登録システムが備える入力手段、設定手段及び登録手段としてコンピュータシステムを機能させるものである。例えば、請求項1に記載の読み登録システムが備える入力手段、設定手段及び登録手段としてコンピュータシステムを機能させる読み登録プログラムは、次のような構成となる。
読みを登録する対象となる単語をユーザから入力する入力手段、前記入力手段により入力された単語の読みを記憶情報に基づき設定する設定手段、及び、前記設定手段により設定された読みを登録する登録手段、としてコンピュータシステムを機能させる読み登録プログラムであって、前記設定手段は、文字列及びその読みが記憶されたデータベースを元に、前記入力手段により入力された単語が含まれる文字列の読みから、その単語に対応する部分の読みを抽出することにより、前記入力手段により入力された単語の読みを設定することを特徴とする読み登録プログラム。
このようなプログラムによれば、コンピュータシステムを用いて前述した読み登録システムを構築することができ、これにより前述した効果を得ることができる。特に、プログラムはネットワーク等を利用して流通させることも可能である上、プログラムの入れ替えは部品の入れ替えに比較して容易であるため、読み登録システムの機能向上等を容易に行うことができる。
以下、本発明が適用された実施形態について、図面を用いて説明する。
[第1実施形態]
図1は、第1実施形態の音声認識装置10の概略構成を表すブロック図である。
この音声認識装置10は、車載装置としてのナビゲーション装置、オーディオ装置、ハンズフリー装置等において音声認識機能及び音声出力機能を実現するためのものであり、制御部20と、記憶部40とを備えている。
制御部20は、CPU、ROM、RAM、I/O及びこれらの構成を接続するバスラインなどからなるマイクロコンピュータを中心に構成されており、各種処理を実行する。なお、ROMには、後述する処理(図3,4)を実行するためのプログラムが記憶されている。
具体的には、制御部20は、認識エンジン21、音声認識処理制御部22、認識結果出力部23、音声出力部24、読み生成部25、認識辞書生成部26、合成エンジン27等として機能する。なお、これら各機能はそれぞれ独立したハードウェアにより実現することも可能であるが、本実施形態では共通のハードウェアにより実現している。
認識エンジン21は、音声を入力するためのマイクロホン51から入力した音声信号について、音響モデル31及び認識辞書群32を参照することによりパターンマッチングを行う。
音声認識処理制御部22は、音声認識を開始するためのスイッチ52が押されている間作動し、音声認識処理を管理する。具体的には、認識エンジン21において行われたパターンマッチングに従い、マイクロホン51から入力された音声信号の表す文字列を認識し、その認識した文字列を認識結果出力部23へ出力する。
認識結果出力部23は、音声認識処理制御部22から入力した文字列を、外部機器(例えばオーディオ装置や携帯電話機)61、表示装置62及び音声出力部24へ、各出力先に応じた形式で出力する。これにより、例えば、マイクロホン51を介して入力された音声信号の表す文字列に対応する処理を外部機器61に行わせたり、その文字列に対応する内容を表示装置62に表示させたり、その文字列に対応する内容をスピーカ63から出力させたりすることが可能となる。
音声出力部24は、認識結果出力部23又は合成エンジン27から入力された情報の表す音をスピーカ63から出力させる。なお、音声出力部24は、定型文の音声を出力させる場合には、あらかじめ記憶されている定型文の音データ33の中から該当する音データを抽出して、その音データの表す音をスピーカ63から出力させる。一方、あらかじめ音データが記憶されていない文字列の音声を出力させる場合には、その文字列を合成エンジン27により音データに変換させた後、その音データの表す音をスピーカ63から出力させる。
読み生成部25は、入力装置(入力操作用の複数のキーを備えた装置)53から入力された文字列について、後述する変換テーブル41〜44を参照して読みを設定する。ここで、読み生成部25は、入力された文字列に対応する読みが複数存在する場合には、複数の読みを表す情報を表示装置62へ出力することにより表示させ、ユーザに選択させる。また、入力された文字列に対応する読みが存在しない場合には、読みの入力を促すメッセージを表す情報を表示装置62へ出力することにより表示させ、ユーザに読みを入力させる。そして、読み生成部25は、入力された文字列と、その文字列について設定した読みとを、認識辞書生成部26へ出力する。
認識辞書生成部26は、読み生成部25から入力した文字列及び読みを、認識辞書群32に登録する。
合成エンジン27は、読み生成部25又は音声出力部24から入力した文字列を音データに変換して音声出力部24へ出力する。
一方、記憶部40は、記憶情報の書き換えが可能な不揮発性の記憶媒体(本実施形態ではハードディスク)を備えている。そして、記憶部40には、ユーザによる読みの入力の手間を省くことができるように、単語と読みとの対応関係を表す変換テーブル41〜44が記憶されている。
具体的には、記憶部40には、人名等の一般語彙についての変換テーブル41が記憶されている。このため、この変換テーブル41に記憶されている文字列が入力された場合には、その読みをユーザにわざわざ入力させることなく、読みを設定することが可能となる。
また、記憶部40には、音楽CDに収録された楽曲に関する情報を提供するためのデータベースであるCDDB45が記憶されている。CDDB45には、音楽CDの情報(アルバム名、曲名、アーティスト名等)として、情報を表す複数の文字列とともに、各文字列の読みが記憶されている。このため、例えば音楽CDを再生する場合に、その音楽CDの情報を表示したり音声出力したりするといったことが可能となる。ここで、CDDB45は、CD−ROMやDVD−ROM等の可搬型記憶媒体71から読み取ることにより、音声認識装置10の記憶部40に記憶される。そして、音声認識装置10は、後述するように、可搬型記憶媒体71からCCDBを読み取った際に、そのCDDB45に基づく変換テーブル42を生成するように構成されており、生成した変換テーブル42は記憶部40に記憶される。
さらに、記憶部40には、地図に関する種々の情報を表すデータベースである地図情報46が記憶されている。この地図情報46には、地図に関する情報(地名、施設名等)として、情報を表す複数の文字列とともに、各文字列の読みが記憶されている。このため、例えばナビゲーション機能を実現する場合に、地図情報46を表示したり音声出力したりするといったことが可能となる。ここで、地図情報46も、CDDB45と同様、CD−ROMやDVD−ROM等の可搬型記憶媒体(いわゆる地図ディスク)71から読み取ることにより、音声認識装置10の記憶部40に記憶される。そして、音声認識装置10は、後述するように、可搬型記憶媒体71から地図情報46を読み取った際に、その地図情報46に基づく変換テーブル43を生成するように構成されており、生成した変換テーブル43は記憶部40に記憶される。
加えて、記憶部40には、過去にユーザにより定義された情報を記憶した変換テーブル44が記憶されている。
以上のように、記憶部40には、一般語彙についての変換テーブル41に加え、CDDB45から生成した変換テーブル42と、地図情報46から生成した変換テーブル43と、ユーザにより定義された情報から生成した変換テーブル44とが記憶されている。このため、これらのうちのいずれかの変換テーブル41〜44に記憶されている単語が入力された場合には、その読みをユーザにわざわざ入力させることなく、読みを設定することが可能となる。
具体的には、各変換テーブル41〜44には、図2に示すように、単語とその単語の読みとが対応づけて記憶されている。なお、図2は、過去にユーザにより定義された情報についての変換テーブル44を表す。
次に、音声認識装置10の制御部20が実行する処理について説明する。
まず、CDDB又は地図情報を記憶した可搬型記憶媒体71からデータベースが読み取られて記憶部40に記憶された場合に実行されるテーブル作成処理について、図3のフローチャートを用いて説明する。
このテーブル作成処理が開始されると、まず、S101で、読み取ったデータベース(CDDB45又は地図情報46)に含まれている文字列の中から、単語を抽出する。すなわち、CDDB45の場合、データベースに含まれている文字列とは、アーティスト名、アルバム名、曲名等であり、こうした文字列の中から単語を抽出する。例えば、「○○○(アーティスト名)のシングルベスト」というアルバム名から、「○○○」の部分を抽出することで、アーティスト名のみを表す単語が抽出されることになる。また、地図情報46の場合、データベースに含まれている文字列とは、地名や施設名等であり、こうした文字列の中から単語を抽出する。なお、複数の単語に分割できない文字列については、その文字列自体を単語として抽出すればよい。
続いて、S102では、S101で抽出した単語に対応する部分の読みを抽出する。
続いて、S103では、S101で抽出した単語とS102で抽出した読みとを対応させて変換テーブル42又は変換テーブル43に登録する。
続いて、S104では、データベース内のすべての単語を抽出したか否かを判定する。
そして、S104で、すべての単語を抽出していないと判定した場合には、S101へ戻る。
一方、S104で、すべての単語を抽出したと判定した場合には、本テーブル作成処理を終了する。
以上のようなテーブル作成処理を実行することにより、複数の文字列についての読みが記憶されたデータベース(CDDB45又は地図情報46)に基づき、文字に含まれる単語とその読みとを対応づけた変換テーブル42,43をあらかじめ生成しておく。
次に、文字列及びその読みを登録するためのユーザによる操作が入力装置53で行われることにより実行される読み登録処理について、図4のフローチャートを用いて説明する。
この読み登録処理が開始されると、まず、S201で、読みを登録する対象となる文字列をユーザから入力する。ここで、文字列の入力は、入力装置53により行われるが、例えば、SDカード等の可搬型の記憶媒体からデータの形で入力(コピー)してもよい。
続いて、S202では、S201で入力した文字列の文脈解析を行い、入力した文字列を単語単位に区切って認識する。
続いて、S203では、入力した文字列(単語)が変換テーブル41〜44に存在するか否かを判定する。
そして、S203で、入力した文字列(単語)が変換テーブル41〜44に存在すると判定した場合には、S204へ移行し、入力した文字列(単語)の読みを変換テーブル41〜44に従い設定する。その後、S206へ移行する。
一方、S203で、入力した文字列(単語)が変換テーブル41〜44に存在しないと判定した場合には、S205へ移行し、入力した文字列(単語)の読みをあらかじめ決められているルールに従い設定する。ここで、あらかじめ決められたルールとしては、その単語(又は単語を構成する各文字)の一般的な読み方が挙げられ、例えば、TTS(Text to speech)の技術を利用することができる。その後、S206へ移行する。
S206では、設定された読みが複数であるか否かを判定する。
そして、S206で、設定された読みが複数でない(つまり、読みが一つである)と判定した場合には、S207へ移行し、その読みが正しいか否かを確認する内容の表示画面を表示装置62に表示させる。
続いて、S208では、S207で表示した表示画面に対してユーザにより行われる操作に基づき、設定した読みが正しいか否かを判定する。
そして、S208で、設定した読みが正しいと判定した場合には、そのままS214へ移行する。
また、S206で、設定された読みが複数であると判定した場合には、S209へ移行し、複数の読みを表す内容の表示画面を表示装置62に表示させる。なお、複数の読みについての音声をスピーカ63から出力させるようにしてもよい。
続いて、S210では、S209で表示した表示画面に対してユーザにより行われる操作に基づき、正しい読みが存在するか否かを判定する。具体的には、表示画面に表示した複数の読みのうちのいずれかを選択する操作が行われた場合には正しい読みが存在すると判定し、いずれも正しくない旨の操作が行われた場合には正しい読みが存在しないと判定する。
そして、S210で、正しい読みが存在すると判定した場合には、S211へ移行し、ユーザにより選択された読みを正しい読みとして選択する。その後、S214へ移行する。
一方、S208で、設定した読みが誤っていると判定した場合や、S210で、正しい読みが存在しないと判定した場合には、S212へ移行し、正しい読みを入力させる内容の表示画面を表示装置62に表示させ、その表示画面に対してユーザにより行われる操作に基づき正しい読みを入力する。
続いて、S213では、S212で入力した読みを、ユーザにより定義された情報から生成した変換テーブル44に登録する。その後、S214へ移行する。
S214では、読みを確定し、認識辞書群32に登録する。その後、本読み登録処理を終了する。
なお、本第1実施形態の音声認識装置10では、テーブル作成処理(図3)におけるS101〜S104の処理と、読み登録処理(図4)におけるS203〜S205の処理とを実行する制御部20が、本発明の設定手段に相当する。また、読み登録処理におけるS206〜S214の処理を実行する制御部20が、本発明の登録手段に相当し、読み登録処理におけるS201,S202の処理を実行する制御部20が、本発明の入力手段に相当する。
以上説明したように、本第1実施形態の音声認識装置10では、データベース(CDDB45及び地図情報46)に記憶されている文字列に含まれる単語とその読みとを対応づけた変換テーブル42,43をあらかじめ生成する(S101〜S104)。そして、読みを登録する対象となる単語をユーザから入力した場合に(S201)、入力された単語の読みを変換テーブル41〜44に基づき設定する(S204)。
したがって、音声認識装置10によれば、ユーザから入力された単語自体が文字列としてデータベースに登録されていなくても、文字列の一部として登録されていればその単語の読みを抽出することが可能となる。このため、既存のデータベースを有効に利用して文字列の読みを設定することができる。また、データベースに基づき変換テーブル42,43をあらかじめ生成しておくようにしているため、データベースに記憶されている情報の量が膨大であっても、単語が入力されてからその読みを設定するまでに要する時間を短くすることができる。
また、入力された単語がデータベースに存在しない場合には、その単語の読みをあらかじめ決められたルールに従い設定するようにしているため(S205)、このような場合にもユーザによる読みの入力を省略させることが可能となる。
さらに、設定された読みがユーザの意図する読みであるか否かを確認するようにしているため(S207,S208)、ユーザの意図しない読みが自動的に登録されてしまうことを防ぐことができる。
しかも、設定された読みがユーザの意図する読みでない場合には、その読みをユーザから入力して変換テーブル44に登録するようにしているため(S212,S213)、以降に同じ単語が入力された場合にはユーザの意図する読みを設定することができる。
また、ユーザから入力された単語に対し、複数の読みが設定された場合には、いずれの読みを登録すべきかをユーザからの指示に基づき判定して登録するようにしているため(S209〜S211)、ユーザの意図する読みを簡単な操作で登録することができる。
[第2実施形態]
次に、第2実施形態の音声認識装置10について説明する。
第2実施形態の音声認識装置10は、基本的には第1実施形態の音声認識装置10(図1)と同一であるが、上述した読み登録処理(図4)に替えて、図5に示す読み登録処理を行う点が異なる。具体的には、第2実施形態の音声認識装置10は、文字列の読みを有料で提供するサーバ80と通信可能に構成されており、文字列の読みをサーバ80へ問い合わせる機能を備えている。すなわち、サーバ80は、1又は複数の音声認識装置10を対象として、文字列の読みを有料で提供するサービスを行うために用いられるものであり、音声認識装置10とサーバ80とにより音声認識システムが構築されている。以下、第1実施形態との相違点を中心に説明することとし、共通する構成については同一符号を用いて説明を省略する。
サーバ80は、制御部81と、記憶部82とを備えている。
制御部81は、CPU、ROM、RAM、I/O及びこれらの構成を接続するバスラインなどからなるマイクロコンピュータを中心に構成されており、音声認識装置10からの要求に応じた応答処理を実行する。なお、ROMには、後述する処理(図6)を実行するためのプログラムが記憶されている。
記憶部82には、文字列及びその読みが登録された最新のデータベースが記憶されている。また、記憶部82には、複数の音声認識装置10のそれぞれに割り当てられた識別情報である識別コードと、各音声認識装置10から徴収すべき料金を表す課金情報との対応関係を表す課金データベースも記憶されている。なお、課金データベースには、課金情報の他に個人情報(料金徴収の方法等)も記憶されるようにしてもよい。
次に、文字列及びその読みを登録するためのユーザによる操作が入力装置53で行われることにより音声認識装置10の制御部20が実行する読み登録処理について、図5のフローチャートを用いて説明する。なお、この読み登録処理(図5)におけるS301〜S304,S307〜S309,S311〜S313,S315,S316,S318の各処理は、第1実施形態の読み登録処理(図4)におけるS201〜S204,S206〜S214の各処理と同一の内容である。
この読み登録処理が開始されると、まず、S301で、読みを登録する対象となる文字列をユーザから入力する。
続いて、S302では、S301で入力した文字列の文脈解析を行い、入力した文字列を単語単位に区切って認識する。
続いて、S303では、入力した文字列(単語)が変換テーブル41〜44に存在するか否かを判定する。
そして、S303で、入力した文字列(単語)が変換テーブル41〜44に存在すると判定した場合には、S304へ移行し、入力した文字列(単語)の読みを変換テーブル41〜44に従い設定する。その後、S307へ移行する。
一方、S303で、入力した文字列(単語)が変換テーブル41〜44に存在しないと判定した場合には、S305へ移行し、入力した文字列及び本音声認識装置10に固有の識別コードである車両識別コードをサーバ80へ送信する。
続いて、S306では、S305で送信した情報に対する応答としてサーバ80から送信されてくる読みを受信し、入力した文字列の読みとして設定する。その後、S307へ移行する。
S307では、設定された読みが複数であるか否かを判定する。
そして、S307で、設定された読みが複数でない(つまり、読みが一つである)と判定した場合には、S308へ移行し、その読みが正しいか否かを確認する内容の表示画面を表示装置62に表示させる。
続いて、S309では、S308で表示した表示画面に対してユーザにより行われる操作に基づき、設定した読みが正しいか否かを判定する。
そして、S309で、設定した読みが正しいと判定した場合には、S310へ移行し、課金許可を表す情報をサーバ80へ送信することにより、サーバ80から受信した読みに対する課金をサーバ80に行わせる。その後、S318へ移行する。なお、設定した読みがサーバ80から受信したものでない場合(記憶部40に記憶されている変換テーブル41〜44に従い設定したものである場合)には、S310の処理をスキップしてS318へ移行する。
また、S307で、設定された読みが複数であると判定した場合には、S311へ移行し、複数の読みを表す内容の表示画面を表示装置62に表示させる。
続いて、S312では、S311で表示した表示画面に対してユーザにより行われる操作に基づき、正しい読みが存在するか否かを判定する。
そして、S312で、正しい読みが存在すると判定した場合には、S313へ移行し、ユーザにより選択された読みを正しい読みとして選択する。
続いて、S314では、S310と同様、課金許可を表す情報をサーバ80へ送信することにより、サーバ80から受信した読みに対する課金をサーバ80に行わせる。その後、S318へ移行する。なお、設定した読みがサーバ80から受信したものでない場合には、S314の処理をスキップしてS318へ移行する。
一方、S309で、設定した読みが誤っていると判定した場合や、S312で、正しい読みが存在しないと判定した場合には、S315へ移行し、正しい読みを入力させる内容の表示画面を表示装置62に表示させ、その表示画面に対してユーザにより行われる操作に基づき正しい読みを入力する。
続いて、S316では、S315で入力した読みを、ユーザにより定義された情報から生成した変換テーブル44に登録する。
続いて、S317では、課金不可を表す情報をサーバ80へ送信することにより、サーバ80から受信した読みに対する課金をサーバ80に行わせないようにする。その後、S318へ移行する。なお、設定した読みがサーバ80から受信したものでない場合には、S317の処理をスキップしてS318へ移行する。
S318では、読みを確定し、認識辞書群32に登録する。その後、本読み登録処理を終了する。
次に、音声認識装置10から文字列及び車両識別コードを受信した場合にサーバ80の制御部81が実行する読み提供処理について、図6のフローチャートを用いて説明する。
この読み提供処理が開始されると、まずS401で、受信した文字列に対応する読みを、データベースに基づき設定する。具体的には、受信した文字列を構成する単語について、その単語を含む文字列をデータベースから検索し、検索した文字列の読みからその単語に対応する部分の読みを抽出する。
続いて、S402では、文字列の送信元である音声認識装置10に対し、S401で設定した読みを送信する。
続いて、S403では、S402で送信した読みについての課金が許可されたか否かを判定する。具体的には、S402で読みを送信した送信先の音声認識装置10から課金許可を表す情報を受信した場合に、課金が許可されたと判定し、課金不可を表す情報を受信した場合に、課金が許可されなかったと判定する。
そして、S403で、課金が許可されたと判定した場合には、S404へ移行し、課金データベースにおいて、文字列の送信元である音声認識装置10に対応する課金情報に、文字列を送信した分の料金を課金する。その後、本読み提供処理を終了する。
一方、S403で、課金が許可されなかったと判定した場合には、そのまま本読取提供処理を終了する。
なお、本第2実施形態の音声認識装置10では、テーブル作成処理(図3)におけるS101〜S104の処理と、読み登録処理(図5)におけるS303〜S306,S310,S314,S317の処理とを実行する制御部20が、本発明の設定手段に相当する。また、読み登録処理におけるS307〜S309,S311〜S313,S315,S316,S318の処理を実行する制御部20が、本発明の登録手段に相当し、読み登録処理におけるS301,S302の処理を実行する制御部20が、本発明の入力手段に相当する。
以上説明したように、本第2実施形態の音声認識装置10によれば、第1実施形態の音声認識装置10と同様の効果を得ることができる。
さらに、本第2実施形態の音声認識装置10では、サーバ80により管理されている最新のデータベースを利用することができるため、ユーザの意図する読みが設定されやすくすることができる。
加えて、本第2実施形態の音声認識装置10は、サーバ80から受信した読みが正しい読みであると判定した場合に、サーバ80に課金を行わせる(S310,S314)。このような構成により、単語の読みを有料で提供するビジネスモデルを実現することができる。
なお、上記第2実施形態では、ユーザから入力された単語の読みが音声認識装置10に記憶されていない場合には、必ずサーバ80に問い合わせるようにしているが、これに限定されるものではない。例えば、サーバ80に問い合わせるか否かをユーザに確認し、問い合わせる旨の指示を受けた場合にのみサーバ80に問い合わせるようにしてもよい。このようにすれば、ユーザが課金を望まない場合にはサーバ80への問い合わせを行わないようにすることができる。
また、上記第2実施形態では、ユーザから入力された単語の読みが音声認識装置10に記憶されていない場合にサーバ80に問い合わせるようにしているが、これに限定されるものではない。例えば、ユーザから入力された単語の読みについてはすべてサーバ80に問い合わせるようにしてもよい。このようにすれば、音声認識装置10において変換テーブル41〜44等を記憶しておく必要がなくなる。
さらに、上記第2実施形態では、サーバ80から受信した読みが正しい読みであると判定した場合に、サーバ80に課金を行わせるようにしているが、これに限定されるものではない。例えば、サーバ80から受信した読みが正しい読みであるか否かに関係なく、サーバ80に課金を行わせるようにしてもよい。
以上、本発明の一実施形態について説明したが、本発明は、種々の形態を採り得ることは言うまでもない。
例えば、上記各実施形態の音声認識装置10では、データベースに基づく変換テーブル42,43をあらかじめ生成するようにしているが、これに限定されるものではなく、ユーザから入力された単語をデータベースから直接検索するようにしてもよい。このようにすれば、データベースに基づく変換テーブル42,43を生成する必要がない。
また、上記各実施形態の音声認識装置10では、データベースとしてCDDB及び地図情報を利用した構成を例に挙げて説明したが、これに限定されるものではなく、例えば、電話帳のデータベースを利用した構成としてもよい。
さらに、上記各実施形態では、音声認識機能及び音声出力機能を実現するための音声認識装置10を例に挙げて説明したが、本発明は、音声認識や音声出力以外にも利用することができる。例えば、単語を五十音で検索したり五十音順に並べたりする処理において単語の読みを判断する場合に利用することができる。
第1実施形態の音声認識装置の概略構成を表すブロック図である。 変換テーブルの説明図である。 第1実施形態の音声認識装置が実行するテーブル作成処理のフローチャートである。 第1実施形態の音声認識装置が実行する読み登録処理のフローチャートである。 第2実施形態の音声認識装置が実行する読み登録処理のフローチャートである。 第2実施形態のサーバが実行する読み提供処理のフローチャートである。
符号の説明
10…音声認識装置、20…制御部、21…認識エンジン、22…音声認識処理制御部、23…認識結果出力部、24…音声出力部、25…読み生成部、26…認識辞書生成部、27…合成エンジン、31…音響モデル、32…認識辞書群、33…音データ、40…記憶部、41〜44…変換テーブル、45…CDDB、46…地図情報、51…マイクロホン、52…スイッチ、53…入力装置、61…外部機器、62…表示装置、63…スピーカ、71…可搬型記憶媒体、72…サーバ

Claims (9)

  1. 読みを登録する対象となる単語を入力する入力手段と、
    前記入力手段により入力された単語の読みを記憶情報に基づき設定する設定手段と、
    前記設定手段により設定された読みを登録する登録手段と、
    を備え、
    前記設定手段は、文字列及びその読みが記憶されたデータベースを元に、前記入力手段により入力された単語が含まれる文字列の読みから、その単語に対応する部分の読みを抽出することにより、前記入力手段により入力された単語の読みを設定すること
    を特徴とする読み登録システム。
  2. 前記設定手段は、文字列及びその読みが記憶されたデータベースに基づき、文字列に含まれる単語とその読みとを対応づけた記憶情報をあらかじめ生成し、前記入力手段により入力された単語の読みをその記憶情報に基づき設定すること
    を特徴とする請求項1に記載の読み登録システム。
  3. 前記設定手段は、前記入力手段により入力された単語の読みをデータベースに記憶されている情報に基づき設定できなかった場合には、その単語の読みをあらかじめ決められたルールに従い設定すること
    を特徴とする請求項1又は請求項2に記載の読み登録システム。
  4. 前記登録手段は、前記設定手段により設定された読みを登録すべきか否かをユーザからの指示に基づき判定し、登録すべきであると判定した場合にその読みを登録すること
    を特徴とする請求項1から請求項3までのいずれか1項に記載の読み登録システム。
  5. 前記登録手段は、前記設定手段により設定された読みを登録すべきでないと判定した場合には、前記入力手段により入力された単語の読みをユーザから入力してその読みを登録し、
    前記設定手段は、ユーザから入力した単語とその読みとを対応づけた記憶情報を生成すること
    を特徴とする請求項4に記載の読み登録システム。
  6. 前記登録手段は、前記設定手段により複数の読みが設定された場合には、いずれの読みを登録すべきかをユーザからの指示に基づき判定し、登録すべきであると判定された読みを登録すること
    を特徴とする請求項1から請求項5までのいずれか1項に記載の読み登録システム。
  7. 前記設定手段は、文字列及びその読みが記憶された外部のデータベースと通信可能に構成され、その外部のデータベースを元に、前記入力手段により入力された単語の読みを設定すること
    を特徴とする請求項1から請求項6までのいずれか1項に記載の読み登録システム。
  8. 前記設定手段は、前記外部のデータベースを元に設定した単語の読みについての課金処理を実行すること
    を特徴とする請求項7に記載の読み登録システム。
  9. 請求項1から請求項8までのいずれか1項に記載の読み登録システムが備える前記入力手段、前記設定手段及び前記登録手段としてコンピュータシステムを機能させることを特徴とする読み登録プログラム。
JP2006194228A 2006-07-14 2006-07-14 読み登録システム及び読み登録プログラム Pending JP2008021235A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006194228A JP2008021235A (ja) 2006-07-14 2006-07-14 読み登録システム及び読み登録プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006194228A JP2008021235A (ja) 2006-07-14 2006-07-14 読み登録システム及び読み登録プログラム

Publications (1)

Publication Number Publication Date
JP2008021235A true JP2008021235A (ja) 2008-01-31

Family

ID=39077105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006194228A Pending JP2008021235A (ja) 2006-07-14 2006-07-14 読み登録システム及び読み登録プログラム

Country Status (1)

Country Link
JP (1) JP2008021235A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011023090A (ja) * 2009-07-21 2011-02-03 Alpine Electronics Inc 楽曲データベース更新装置及び楽曲データベース更新方法
JP2012053844A (ja) * 2010-09-03 2012-03-15 Denso Corp 手書文字入力システム
WO2012172596A1 (ja) * 2011-06-14 2012-12-20 三菱電機株式会社 発音情報生成装置、車載情報装置およびデータベース生成方法
JP5141687B2 (ja) * 2007-07-31 2013-02-13 富士通株式会社 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5141687B2 (ja) * 2007-07-31 2013-02-13 富士通株式会社 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
JP2011023090A (ja) * 2009-07-21 2011-02-03 Alpine Electronics Inc 楽曲データベース更新装置及び楽曲データベース更新方法
JP2012053844A (ja) * 2010-09-03 2012-03-15 Denso Corp 手書文字入力システム
WO2012172596A1 (ja) * 2011-06-14 2012-12-20 三菱電機株式会社 発音情報生成装置、車載情報装置およびデータベース生成方法
JP5335165B2 (ja) * 2011-06-14 2013-11-06 三菱電機株式会社 発音情報生成装置、車載情報装置およびデータベース生成方法
CN103635961A (zh) * 2011-06-14 2014-03-12 三菱电机株式会社 发音信息生产装置、车载信息装置以及数据库生成方法

Similar Documents

Publication Publication Date Title
CN102549652B (zh) 信息检索装置
CN101727474B (zh) 检索装置和检索方法
US20080040096A1 (en) Machine Translation System, A Machine Translation Method And A Program
CN102483883A (zh) 电子阅读装置
JP2005242636A (ja) 検索データの更新システムおよび更新方法
KR20080083290A (ko) 디지털 파일의 컬렉션에서 디지털 파일을 액세스하기 위한방법 및 장치
JP2008021235A (ja) 読み登録システム及び読み登録プログラム
JP6512750B2 (ja) 支援システム、及び支援装置
CN108286985A (zh) 用于在导航设备中检索兴趣点的装置和方法
CN101908058A (zh) 计算机实施系统
JP3726783B2 (ja) 音声認識装置
JP4381632B2 (ja) ナビゲーションシステムおよびその目的地入力方法
JP2011064969A (ja) 音声認識装置及び音声認識方法
CN101981613A (zh) 语音设备、语音控制程序以及语音控制方法
JP2002215186A (ja) 音声認識システム
JP2005292303A (ja) 情報表示制御装置、情報表示制御処理プログラム、および情報管理サーバ
JP4189653B2 (ja) 画像記録再生方法および画像記録再生装置
JPH05120596A (ja) 交通情報提供装置
JP5533576B2 (ja) 情報作成装置、情報作成方法及びプログラム
JP5246512B2 (ja) 音声読み上げシステム、および音声読み上げ端末
JP5391827B2 (ja) 文字入力システム、文字入力補助方法、文字入力補助プログラム
JP5334446B2 (ja) 情報検索装置およびナビゲーション装置
JP4770288B2 (ja) 情報表示制御装置および情報表示制御プログラム
JP2010072081A (ja) 音声認識用辞書作成装置
JP2005265477A (ja) 車載ナビゲーションシステム