JP2005151037A - 音声処理装置および音声処理方法 - Google Patents
音声処理装置および音声処理方法 Download PDFInfo
- Publication number
- JP2005151037A JP2005151037A JP2003383946A JP2003383946A JP2005151037A JP 2005151037 A JP2005151037 A JP 2005151037A JP 2003383946 A JP2003383946 A JP 2003383946A JP 2003383946 A JP2003383946 A JP 2003383946A JP 2005151037 A JP2005151037 A JP 2005151037A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- speech
- processing unit
- information
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
【課題】音声を認識して音声に含まれる単語に基づいて、通信網より取得可能な情報を検索する音声処理装置および音声処理方法を提供する。
【解決手段】マイクロフォン10と、音声認識処理部22と、音声認識メモリ23と、構文解析処理部24と、辞書メモリ25と、情報検索処理部26と、通信処理部27と、データ蓄積メモリ28と、表示部30とを有し、マイクロフォン10から入力した音声信号を音声認識処理部22が文字列データ(テキストデータ)に変換し、構文解析処理部24がそのテキストデータから名詞の単語のみを抽出し、情報検索処理部26および通信処理部27が、抽出した名詞の単語に関連するURL情報を電話回線を介して通信網に接続されたサーバ装置に検索させ、抽出した名詞の単語と該単語に対応する検索結果(URL情報)、および音声認識処理部22が生成したテキストデータを関連付けてデータ蓄積メモリ28が記憶し、表示部30の表示画面上に音声認識処理部22が生成したテキストを表示する。その際、テキスト中の名詞の単語を検索したURL情報とリンクさせて表示する。
【選択図】図1
【解決手段】マイクロフォン10と、音声認識処理部22と、音声認識メモリ23と、構文解析処理部24と、辞書メモリ25と、情報検索処理部26と、通信処理部27と、データ蓄積メモリ28と、表示部30とを有し、マイクロフォン10から入力した音声信号を音声認識処理部22が文字列データ(テキストデータ)に変換し、構文解析処理部24がそのテキストデータから名詞の単語のみを抽出し、情報検索処理部26および通信処理部27が、抽出した名詞の単語に関連するURL情報を電話回線を介して通信網に接続されたサーバ装置に検索させ、抽出した名詞の単語と該単語に対応する検索結果(URL情報)、および音声認識処理部22が生成したテキストデータを関連付けてデータ蓄積メモリ28が記憶し、表示部30の表示画面上に音声認識処理部22が生成したテキストを表示する。その際、テキスト中の名詞の単語を検索したURL情報とリンクさせて表示する。
【選択図】図1
Description
本発明は、マイクロフォンから入力した音声を音声認識処理する音声処理装置および音声処理方法に関するものである。
近年、インターネット等に利用し、所定のキーワードについて、さらに詳細な情報を取得することが一般的となっている。
すなわち、所定のキーワードについて詳細な情報を知りたい場合には、パーソナルコンピュータ(PC)を操作してインターネット等の通信網に接続し、通信網に接続されたサーバ上の検索エンジンにアクセスすることにより、知りたい項目についてのURL(Uniform Resource Locator)を検索させる方法は頻繁に行われているところである。
すなわち、所定のキーワードについて詳細な情報を知りたい場合には、パーソナルコンピュータ(PC)を操作してインターネット等の通信網に接続し、通信網に接続されたサーバ上の検索エンジンにアクセスすることにより、知りたい項目についてのURL(Uniform Resource Locator)を検索させる方法は頻繁に行われているところである。
ところで、キーワードについて、上述したインターネット等を利用した検索方法は、十分に操作時間がある場合には問題なく実行可能であるが、インターネット等を利用した検索を行うためにPCを操作する時間がない状況も起こりうる。
たとえば、会議のディスカッション中に話題となった内容について、さらに詳しく知りたい場合であっても、会議の議論に集中しているので、PC操作により必要な情報を即時的に得ることができず、情報を取得する機会を失う場合がある。
かかる場合に、会議におけるディスカッションに参加し、かつ、会議のディスカッション中に話題となった内容についてインターネット等を利用した情報の検索を、同時に行うことができれば利便である。
たとえば、会議のディスカッション中に話題となった内容について、さらに詳しく知りたい場合であっても、会議の議論に集中しているので、PC操作により必要な情報を即時的に得ることができず、情報を取得する機会を失う場合がある。
かかる場合に、会議におけるディスカッションに参加し、かつ、会議のディスカッション中に話題となった内容についてインターネット等を利用した情報の検索を、同時に行うことができれば利便である。
本発明はかかる事情に鑑みてなされたものであり、その目的は、音声を認識して音声に含まれる単語に基づいて、通信網より取得可能な情報を検索する音声処理装置および音声処理方法を提供することにある。
上記目的を達成するために本発明の第1の観点は、マイクロフォンと、前記マイクロフォンから集音した集音信号を第1の文字列に変換する音声認識手段と、前記第1の文字列から、特定の文法的特徴を有する第2の文字列を抽出する文字列解析手段と、通信網に接続され、前記通信網から前記第2の文字列に関連する情報を検索する通信手段とを具備する音声処理装置である。
好適には、前記第2の文字列と検索された前記情報のアドレスとを対応付けて記憶する記憶手段をさらに具備する。
好適には、表示手段をさらに具備し、前記第1の文字列を、前記第2の文字列のみ区別して前記表示手段に表示し、表示された第2の文字列のうちの1つを指定すると、指定された第2の文字列に関連して検索された前記情報を、前記表示手段に表示する。
上記目的を達成するために本発明の第2の観点は、マイクロフォンを有する音声処理方法であって、前記マイクロフォンから集音した集音信号を第1の文字列に変換するステップと、前記第1の文字列から、特定の文法的特徴を有する第2の文字列を抽出するステップと、通信網に接続し、前記通信網から前記第2の文字列に関連する情報を検索するステップとを具備する。
本発明の第1の観点に係る音声処理装置によれば、音声認識手段は、マイクロフォンから集音した集音信号を第1の文字列に変換し、文字列解析手段は、前記第1の文字列から、特定の文法的特徴を有する第2の文字列を抽出し、通信網に接続された通信手段により、前記通信網から前記第2の文字列に関連する情報を検索するので、音声処理装置が入力した音声に含まれる特定の単語に関する情報を、特別な操作をすることなく取得することが可能となる。
本発明によれば、音声を認識し、音声に含まれる単語に基づいて、通信網から取得可能な情報を検索するので、音声に含まれる単語をキーボード等の入力手段に入力して検索する必要がなく、利便性が向上するという利点がある。
実施形態
以下、本発明の実施形態について、添付図面に関連付けて説明する。
図1は、本発明の音声処理装置が適用される1例を示す構成図である。
図1に図解したように、会議参加者A1,A2により行われている会議において、テーブルの上に、本発明の音声処理装置1が設置されている。
音声処理装置1は、電話回線900に接続され、インターネット等の通信網2に接続される。
なお、図1のように、音声処理装置1から直接電話回線900により通信網2に接続させてもよいし、音声処理装置1から、図示しないLANユニット等の中継サーバを介して通信網2に接続させてもよい。また、音声処理装置1から、無線通信により中継基地局を介して通信網2に接続させてもよい。
以下、本発明の実施形態について、添付図面に関連付けて説明する。
図1は、本発明の音声処理装置が適用される1例を示す構成図である。
図1に図解したように、会議参加者A1,A2により行われている会議において、テーブルの上に、本発明の音声処理装置1が設置されている。
音声処理装置1は、電話回線900に接続され、インターネット等の通信網2に接続される。
なお、図1のように、音声処理装置1から直接電話回線900により通信網2に接続させてもよいし、音声処理装置1から、図示しないLANユニット等の中継サーバを介して通信網2に接続させてもよい。また、音声処理装置1から、無線通信により中継基地局を介して通信網2に接続させてもよい。
また、後述するように、音声処理装置1が有するマイクロフォンが、会議上のテーブル等に設置されて、会議参加者A1,A2の音声を入力する。
通信網2には、サーバ3が接続されている。
サーバ3は、いわゆる検索エンジンを備え、通信網2を介して入力される文字列データ(テキストデータ)に応じた情報を出力する。たとえば、音声処理装置1より通信網2を介して文字列データを入力すると、入力した文字列データ(テキストデータ)を含むURL等のアドレス情報を検索し、検索したアドレス情報を、通信網2を介して音声処理装置1に返信する。
サーバ3は、いわゆる検索エンジンを備え、通信網2を介して入力される文字列データ(テキストデータ)に応じた情報を出力する。たとえば、音声処理装置1より通信網2を介して文字列データを入力すると、入力した文字列データ(テキストデータ)を含むURL等のアドレス情報を検索し、検索したアドレス情報を、通信網2を介して音声処理装置1に返信する。
次に、図2と関連付けて、本実施形態における音声処理装置1の各構成要素について説明する。
図2に示すとおり、本実施形態における音声処理装置1は、マイクロフォン10と、音声処理部20と、表示部30とから構成される。音声処理部20は、A/D変換器21と、音声認識手段としての音声認識処理部22と、音声認識メモリ23と、文字列解析手段としての構文解析処理部24と、辞書メモリ25と、情報検索処理部26と、通信手段としての通信処理部27と、データ蓄積メモリ28とを有している。
音声処理部20は、各処理部のシーケンス制御およびタイミング制御等を司るCPU(図示しない)を含んで構成される。
また、通信処理部27は、外部の通信網を入出力を行うための端子N1に接続されている。
図2に示すとおり、本実施形態における音声処理装置1は、マイクロフォン10と、音声処理部20と、表示部30とから構成される。音声処理部20は、A/D変換器21と、音声認識手段としての音声認識処理部22と、音声認識メモリ23と、文字列解析手段としての構文解析処理部24と、辞書メモリ25と、情報検索処理部26と、通信手段としての通信処理部27と、データ蓄積メモリ28とを有している。
音声処理部20は、各処理部のシーケンス制御およびタイミング制御等を司るCPU(図示しない)を含んで構成される。
また、通信処理部27は、外部の通信網を入出力を行うための端子N1に接続されている。
マイクロフォン10は、音声処理装置1の外部の音声をアナログ信号として入力する。したがって、図1に示すように、会議参加者A1またはA2の発した音声を、音声処理部20の後段の処理において十分に認識できるように、会議参加者A1またはA2に近接して配置される。
A/D変換器21は、マイクロフォン10が出力した音声のアナログ信号S10をディジタルの音声信号S21に変換する。
音声認識処理部22は、A/D変換器21から入力する音声のディジタル信号S21に基づいて、音声認識処理を行うことにより、テキストデータS22に変換して構文解析処理部24およびデータ蓄積メモリ28に出力する。
具体的には、A/D変換器21からディジタルの音声信号S21を入力すると、入力された音声信号を分析し、後述するように、音声認識メモリ23に格納された音響モデルから音響的な特徴量(音響特徴)を抽出する。すなわち、入力された音声信号S21に対して、音声認識に用いる基本的な音の単位、すなわち、子音や母音などの人間の発音の小さい単位(音素)ごとに音響特徴を抽出する。
さらに、音声認識処理部22は、抽出した音声信号S21の音素ごとの音響特徴を、音声認識メモリ23に格納された認識辞書と参照し、認識対象のテキストデータの中で、入力された音声信号S21の各音素に最も近い候補を、音声認識結果(テキストデータである信号S22)として出力する。すなわち、認識辞書には、音素単位の音響特徴に対応するテキストデータが記述されているので、信号S21から抽出した音響特徴を、認識辞書に記述された音響特徴と比較して、その中で最も近い音響特徴に対応するテキストデータを選択して出力する。
具体的には、A/D変換器21からディジタルの音声信号S21を入力すると、入力された音声信号を分析し、後述するように、音声認識メモリ23に格納された音響モデルから音響的な特徴量(音響特徴)を抽出する。すなわち、入力された音声信号S21に対して、音声認識に用いる基本的な音の単位、すなわち、子音や母音などの人間の発音の小さい単位(音素)ごとに音響特徴を抽出する。
さらに、音声認識処理部22は、抽出した音声信号S21の音素ごとの音響特徴を、音声認識メモリ23に格納された認識辞書と参照し、認識対象のテキストデータの中で、入力された音声信号S21の各音素に最も近い候補を、音声認識結果(テキストデータである信号S22)として出力する。すなわち、認識辞書には、音素単位の音響特徴に対応するテキストデータが記述されているので、信号S21から抽出した音響特徴を、認識辞書に記述された音響特徴と比較して、その中で最も近い音響特徴に対応するテキストデータを選択して出力する。
なお、その際、上述した音声認識における認識率を向上させるため、認識したい言葉をあらかじめ特定の人の声で登録しておくことで、登録者の音声が特に良く認識可能とするように構成することも可能である(特定話者音声認識)。したがって、会議を行う話者(会議参加者)が特定されている場合には、これらの会議参加者の音響特徴を音声認識メモリ23に登録しておくことで、音声認識の認識率を向上させることができる。
音声認識メモリ23には、上述した音響モデルと認識辞書が格納されている。
音響モデルは、人間の発音の小さな単位(音素)が音響特徴によって記述されており、音声信号の音素単位と対応する音響特徴を参照することが可能となる。この音響特徴は、多数の話者の音声から求めた音素の統計的な音響特徴情報である。
認識辞書には、音声認識をさせるテキストデータが記述されており、音素単位の音響特徴に対応するテキストデータを参照することが可能となる。
音響モデルは、人間の発音の小さな単位(音素)が音響特徴によって記述されており、音声信号の音素単位と対応する音響特徴を参照することが可能となる。この音響特徴は、多数の話者の音声から求めた音素の統計的な音響特徴情報である。
認識辞書には、音声認識をさせるテキストデータが記述されており、音素単位の音響特徴に対応するテキストデータを参照することが可能となる。
構文解析処理部24は、音声認識処理部22よりテキストデータS22を入力し、構文解析処理をした後に、名詞の単語のみを抽出したテキストデータS24を出力する。
構文解析処理とは、テキストの構文的な構造を解析する処理であり、構文解析処理については、様々な翻訳処理ソフトウエアに組み込まれたアルゴリズムが公知技術として知られており、それらを適用することが可能である。たとえば、入力したテキストデータから名詞の単語を抽出する場合、一般に、下記のような処理が必要となる。
(1)構文木の作成
入力したテキストデータ(信号S22)を文節し、所定の文法規則に基づいて、構文木を作成する。文法規則には、文節間の修飾関係や係り受け条件等含まれている。
これにより、各文節に含まれる主語,述語等を特定し、文節間の関連がツリー構造で記述されるデータ(構文木)を作成する。
(2)構文木からの名詞の抽出
得られた構文木から、名詞のみを抽出し、テキストデータS24として出力する。
なお、構文木が作成されているので、名詞に限定されず、他の属性(形容詞、接続詞等)を有する単語を抽出することも可能である。
構文解析処理とは、テキストの構文的な構造を解析する処理であり、構文解析処理については、様々な翻訳処理ソフトウエアに組み込まれたアルゴリズムが公知技術として知られており、それらを適用することが可能である。たとえば、入力したテキストデータから名詞の単語を抽出する場合、一般に、下記のような処理が必要となる。
(1)構文木の作成
入力したテキストデータ(信号S22)を文節し、所定の文法規則に基づいて、構文木を作成する。文法規則には、文節間の修飾関係や係り受け条件等含まれている。
これにより、各文節に含まれる主語,述語等を特定し、文節間の関連がツリー構造で記述されるデータ(構文木)を作成する。
(2)構文木からの名詞の抽出
得られた構文木から、名詞のみを抽出し、テキストデータS24として出力する。
なお、構文木が作成されているので、名詞に限定されず、他の属性(形容詞、接続詞等)を有する単語を抽出することも可能である。
辞書メモリ25は、構文解析処理部24で実行される構文解析処理に必要な単語データとその属性(動詞,形容詞等)とを関連付けられて記憶する。
なお、辞書メモリ25に対して、音声処理装置1の外部からアクセスすることにより、新規単語データを適宜、追加登録可能に構成されることは言うまでもない。
なお、辞書メモリ25に対して、音声処理装置1の外部からアクセスすることにより、新規単語データを適宜、追加登録可能に構成されることは言うまでもない。
情報検索処理部26は、構文解析処理部24により抽出されて出力された名詞のテキストデータを入力し、通信処理部27に対して、そのテキストデータに関連し、通信網から得られる情報を取得するように指示する。
さらに、情報検索処理部26は、通信処理部27から名詞のテキストデータに関連した情報(文字列データ)を受けると、その情報(文字列データ)をデータ蓄積メモリ28に対して出力する(信号S26)。
さらに、情報検索処理部26は、通信処理部27から名詞のテキストデータに関連した情報(文字列データ)を受けると、その情報(文字列データ)をデータ蓄積メモリ28に対して出力する(信号S26)。
通信処理部27は、端子N1に接続され、情報検索処理部26よりテキストデータを入力すると、電話回線900を介して通信網2に接続されたサーバ3にアクセスし、入力したテキストに関連する情報をサーバ3の検索エンジンに検索させる。
入力したテキストに関連する情報としては、入力したテキストを含むURL情報が一般的であるが、これに拘泥せず、入力したテキストデータに関連し、通信網から得られる情報であれば何でも構わない。
入力したテキストに関連する情報としては、入力したテキストを含むURL情報が一般的であるが、これに拘泥せず、入力したテキストデータに関連し、通信網から得られる情報であれば何でも構わない。
データ蓄積メモリ28は、音声認識処理部22より入力したテキストデータS22に含まれるテキストと、テキストデータS24に含まれる名詞のテキストと、各名詞のテキストに対応した文字列データS26に含まれるURL情報等の文字列と、を関連付けて記憶する。
表示部30は、たとえば、プロジェクタ等により表示される表示画面を含んで構成される。
図示しない音声処理部20を統括するCPUは、データ蓄積メモリ28が音声認識処理部22より入力したテキストデータ(テキスト)を、表示部30に出力する。その際、表示部30は、テキストに含まれる名詞の単語を、テキストに含まれる名詞以外の属性の単語と区別して表示する。たとえば、名詞の単語のみアンダーラインを付したり、名詞の単語のみ色を変えて表示する。
そして、区別して表示された名詞の単語については、データ蓄積メモリ28により情報検索処理部26が取得したURL情報等と関連付けられているので、いわゆるリンクを張るということが可能となる。すなわち、表示部30の表示画面上に表示されたテキストの中で、区別して表示された名詞の単語の1つを、所定の入力手段(音声処理装置1に接続されたマウス等によるクリック入力)により指定すると、通信処理部27が電話回線900を介して通信網に接続し、指定された名詞の単語に対応するURLのホームページを表示部30の表示画面に表示させることが可能となる。
図示しない音声処理部20を統括するCPUは、データ蓄積メモリ28が音声認識処理部22より入力したテキストデータ(テキスト)を、表示部30に出力する。その際、表示部30は、テキストに含まれる名詞の単語を、テキストに含まれる名詞以外の属性の単語と区別して表示する。たとえば、名詞の単語のみアンダーラインを付したり、名詞の単語のみ色を変えて表示する。
そして、区別して表示された名詞の単語については、データ蓄積メモリ28により情報検索処理部26が取得したURL情報等と関連付けられているので、いわゆるリンクを張るということが可能となる。すなわち、表示部30の表示画面上に表示されたテキストの中で、区別して表示された名詞の単語の1つを、所定の入力手段(音声処理装置1に接続されたマウス等によるクリック入力)により指定すると、通信処理部27が電話回線900を介して通信網に接続し、指定された名詞の単語に対応するURLのホームページを表示部30の表示画面に表示させることが可能となる。
以上、音声処理装置1の各構成要素について説明した。
次に、音声処理装置1の処理動作について、図1,2に関連付けて説明する。
下記においては、図1に示す会議参加者A1が、『大崎駅には山手線、りんかい線が止まります。』と発言した場合を想定し、音声処理装置1の処理動作について説明することとする。
次に、音声処理装置1の処理動作について、図1,2に関連付けて説明する。
下記においては、図1に示す会議参加者A1が、『大崎駅には山手線、りんかい線が止まります。』と発言した場合を想定し、音声処理装置1の処理動作について説明することとする。
会議参加者A1の発言である『大崎駅には山手線、りんかい線が止まります』を、マイクロフォン10がアナログの音声信号として入力すると、先ず、A/D変換器21によりディジタルの音声信号に変換される。
ディジタルの音声信号を入力した音声認識処理部22は、その音声信号を音声認識処理して、『大崎駅には山手線、りんかい線が止まります』のテキストデータ(信号S22)を生成して、構文解析処理部24およびデータ蓄積メモリ28に出力する。
ディジタルの音声信号を入力した音声認識処理部22は、その音声信号を音声認識処理して、『大崎駅には山手線、りんかい線が止まります』のテキストデータ(信号S22)を生成して、構文解析処理部24およびデータ蓄積メモリ28に出力する。
すなわち、入力したディジタルの音声信号S21を分析し、音声認識メモリ23に格納された音響モデルから音響的な特徴量(音響特徴)を抽出する。つまり、入力された音声信号S21に対して、音声認識に用いる基本的な音の単位、すなわち、子音や母音などの人間の発音の小さい単位(音素)ごとに音響特徴を抽出する。
さらに、音声認識処理部22は、抽出した音声信号S21の音素ごとの音響特徴を、音声認識メモリ23に格納された認識辞書と参照し、認識対象のテキストデータの中で、入力された音声信号S21の各音素に最も近い候補を、音声認識結果(テキストデータである信号S22)として出力する。すなわち、認識辞書には、音素単位の音響特徴に対応するテキストデータが記述されているので、信号S21から抽出した音響特徴を、認識辞書に記述された音響特徴と比較して、その中で最も近い音響特徴に対応するテキストデータを選択して出力する。
さらに、音声認識処理部22は、抽出した音声信号S21の音素ごとの音響特徴を、音声認識メモリ23に格納された認識辞書と参照し、認識対象のテキストデータの中で、入力された音声信号S21の各音素に最も近い候補を、音声認識結果(テキストデータである信号S22)として出力する。すなわち、認識辞書には、音素単位の音響特徴に対応するテキストデータが記述されているので、信号S21から抽出した音響特徴を、認識辞書に記述された音響特徴と比較して、その中で最も近い音響特徴に対応するテキストデータを選択して出力する。
構文解析処理部24は、『大崎駅には山手線、りんかい線が止まります』のテキストデータを構文解析処理して、名詞の単語のみを抽出する。
すなわち、入力したテキストデータ(信号S22)を文節し、所定の文法規則に基づいて、構文木を作成する。これにより、各文節に含まれる主語,述語等を特定し、文節間の関連がツリー構造で記述されるデータ(構文木)を作成する。
さらに、得られた構文木から、名詞の単語のみを抽出し、テキストデータS24として出力する。具体的には、テキストデータS24には、『大崎駅』,『山手線』および『りんかい線』が含まれる。
すなわち、入力したテキストデータ(信号S22)を文節し、所定の文法規則に基づいて、構文木を作成する。これにより、各文節に含まれる主語,述語等を特定し、文節間の関連がツリー構造で記述されるデータ(構文木)を作成する。
さらに、得られた構文木から、名詞の単語のみを抽出し、テキストデータS24として出力する。具体的には、テキストデータS24には、『大崎駅』,『山手線』および『りんかい線』が含まれる。
情報検索処理部26は、『大崎駅』,『山手線』および『りんかい線』が含まれるテキストデータS24を受けると、これらのテキストを検索するように通信処理部27に指示する。
情報検索処理部26より検索指示を受けると、通信処理部27は、電話回線900を介してインターネット等の通信網2に接続されたサーバ3の検索エンジンに、上述したテキスト(『大崎駅』,『山手線』および『りんかい線』)を検索させる。
サーバ3の検索エンジンにより検索された情報、たとえば上述したテキストを含むURLの情報(文字列データ)が通信処理部27に返信されると、通信処理部27は、その返信された情報を情報検索処理部26に出力する。
たとえば、サーバ3の検索エンジンにより検索された情報としては、表1に示すようなURLの情報となる。
情報検索処理部26より検索指示を受けると、通信処理部27は、電話回線900を介してインターネット等の通信網2に接続されたサーバ3の検索エンジンに、上述したテキスト(『大崎駅』,『山手線』および『りんかい線』)を検索させる。
サーバ3の検索エンジンにより検索された情報、たとえば上述したテキストを含むURLの情報(文字列データ)が通信処理部27に返信されると、通信処理部27は、その返信された情報を情報検索処理部26に出力する。
たとえば、サーバ3の検索エンジンにより検索された情報としては、表1に示すようなURLの情報となる。
〔表1〕
「大崎駅」:http://ekikara.jp/main.cgi?station2762
http://www.asahi-net.or.jp/jt7t-enmt/yamate/oosaki.html
…
「山手線」:http://ekikara.jp/main.cgi?line198
http://homepage2.nifty.com/yamanotesen/
…
「りんかい線」:http://www.twr.co.jp
http://www.bigsight.jp/access-c/rinkai-c.html
…
「大崎駅」:http://ekikara.jp/main.cgi?station2762
http://www.asahi-net.or.jp/jt7t-enmt/yamate/oosaki.html
…
「山手線」:http://ekikara.jp/main.cgi?line198
http://homepage2.nifty.com/yamanotesen/
…
「りんかい線」:http://www.twr.co.jp
http://www.bigsight.jp/access-c/rinkai-c.html
…
情報検索処理部26は、通信処理部27より検索結果を受信すると、その検索結果をデータ蓄積メモリ28に出力する。
データ蓄積メモリ28は、音声認識処理部22から入力したテキストデータ(『大崎駅には山手線、りんかい線が止まります』)と、入力したテキストデータに含まれる各名詞の単語テキストデータ(『大崎駅』,『山手線』および『りんかい線』)と、各名詞の単語に対応する上記表1のURL情報とを関連付けて記憶する。
そして、図示しない音声処理部20を統括するCPUが、データ蓄積メモリ28が記憶したテキストデータ(『大崎駅には山手線、りんかい線が止まります』)を、表示部30の表示画面に表示させる。
その際、下記表2に示すように、たとえば、テキストの名詞部分にはアンダーラインを付し、名詞以外の属性を有する単語と区別して表示させる。
そして、図示しない音声処理部20を統括するCPUが、データ蓄積メモリ28が記憶したテキストデータ(『大崎駅には山手線、りんかい線が止まります』)を、表示部30の表示画面に表示させる。
その際、下記表2に示すように、たとえば、テキストの名詞部分にはアンダーラインを付し、名詞以外の属性を有する単語と区別して表示させる。
〔表2〕
『大崎駅には山手線、りんかい線が止まります』
『大崎駅には山手線、りんかい線が止まります』
各名詞の単語(『大崎駅』,『山手線』および『りんかい線』)は、データ蓄積メモリ28において、表1に示す各URL情報と関連付けられているので、いわゆるリンクを張るということが可能となる。すなわち、所定の入力手段(音声処理装置1に接続されたマウス等によるクリック入力)により、表2でアンダーラインを付した名詞の単語のうちの1つを選択・指定すると、通信処理部27が電話回線900を介して通信網に接続し、選択された名詞の単語に対応するURLのホームページを表示部30の表示画面に表示させる。
表1で示すように、選択された名詞の単語に対応するURLのホームページが複数存在する場合には、その複数のホームページを表示画面上に表示させて選択できるようにすればよい。
表1で示すように、選択された名詞の単語に対応するURLのホームページが複数存在する場合には、その複数のホームページを表示画面上に表示させて選択できるようにすればよい。
以上説明したように、本実施形態における音声処理装置1によれば、マイクロフォン10と、音声認識処理部22と、音声認識メモリ23と、構文解析処理部24と、辞書メモリ25と、情報検索処理部26と、通信処理部27と、データ蓄積メモリ28と、表示部30とを有し、マイクロフォン10から入力した音声信号を音声認識処理部22が文字列データ(テキストデータ)に変換し、構文解析処理部24がそのテキストデータから名詞の単語のみを抽出し、情報検索処理部26および通信処理部27が、抽出した名詞の単語に関連するURL情報を電話回線を介して通信網に接続されたサーバ装置に検索させ、抽出した名詞の単語と該単語に対応する検索結果(URL情報)、および音声認識処理部22が生成したテキストデータを関連付けてデータ蓄積メモリ28が記憶し、表示部30の表示画面上に音声認識処理部22が生成したテキストを表示する。その際、テキスト中の名詞の単語を検索したURL情報とリンクさせて表示するので、以下の効果を得ることができる。
すなわち、
(1)会議において2人以上が話をしている場合に、話題となっている特定のキーワードについて知りたい情報がある場合でも、会話を中断することなく、自動的に必要な情報が取得できるので、会議参加者は、会話に集中することができる。
(2)特定のキーワードについて調べるために会議を中断する必要がなく、結果として会議を短時間で済ませることができる。
(3)会議中に情報を取得する必要がない場合であっても、会議中に話題となっていた特定のキーワードについて、会議終了後に調べる必要がなく、時間の節約となり利便である。
(1)会議において2人以上が話をしている場合に、話題となっている特定のキーワードについて知りたい情報がある場合でも、会話を中断することなく、自動的に必要な情報が取得できるので、会議参加者は、会話に集中することができる。
(2)特定のキーワードについて調べるために会議を中断する必要がなく、結果として会議を短時間で済ませることができる。
(3)会議中に情報を取得する必要がない場合であっても、会議中に話題となっていた特定のキーワードについて、会議終了後に調べる必要がなく、時間の節約となり利便である。
本発明の実施形態は、上述した実施形態に限定されず、様々な変更が可能である。
たとえば、上述した実施形態においては、入力した音声信号を変換したテキストに含まれるすべての名詞の単語について検索することとしたが、発話された音声に相当するすべてのテキストを表示部30に表示し、そのテキストに含まれるすべての名詞の単語を検索することは、煩雑であるし、データ蓄積メモリ28のメモリ容量の制限からも望ましくないことが考えられる。
したがって、音声処理部20に対して所定のコマンドを入力することで、データ蓄積メモリ28から表示部30に対する出力を制御することができる。たとえば、所定のコマンドが音声処理部20に入力された場合には、データ蓄積メモリ28から表示部30へ出力しないようにCPUを構成することもできる。
たとえば、上述した実施形態においては、入力した音声信号を変換したテキストに含まれるすべての名詞の単語について検索することとしたが、発話された音声に相当するすべてのテキストを表示部30に表示し、そのテキストに含まれるすべての名詞の単語を検索することは、煩雑であるし、データ蓄積メモリ28のメモリ容量の制限からも望ましくないことが考えられる。
したがって、音声処理部20に対して所定のコマンドを入力することで、データ蓄積メモリ28から表示部30に対する出力を制御することができる。たとえば、所定のコマンドが音声処理部20に入力された場合には、データ蓄積メモリ28から表示部30へ出力しないようにCPUを構成することもできる。
また、情報検索処理部26に対して所定のコマンドを入力することで、情報検索処理部26が通信処理部27が検索指示するURLの数を制限するように、情報検索処理部26を構成することもできる。
また、音声処理部20に対して文字列を入力することで、情報検索処理部26から通信処理部27に対して検索を指示する単語を限定するように制御することができる。たとえば、音声処理部20に入力された文字列を含む名詞の単語についてのみ検索指示するように、情報検索処理部26を構成することもできる。
1…音声処理装置、2…通信網、3…サーバ、10…マイクロフォン、20…音声処理部、21…A/D変換器、22…音声認識処理部、23…音声認識メモリ、24…構文解析処理部、25…辞書メモリ、26…情報検索処理部、27…通信処理部、28…データ蓄積メモリ、30…表示部、900…電話回線。
Claims (5)
- マイクロフォンと、
前記マイクロフォンから集音した集音信号を第1の文字列に変換する音声認識手段と、 前記第1の文字列から、特定の文法的特徴を有する第2の文字列を抽出する文字列解析手段と、
通信網に接続され、前記通信網から前記第2の文字列に関連する情報を検索する通信手段と
を具備する音声処理装置。 - 前記第2の文字列と検索された前記情報のアドレスとを対応付けて記憶する記憶手段
をさらに具備する請求項1記載の音声処理装置。 - 表示手段をさらに具備し、
前記第1の文字列を、前記第2の文字列のみ区別して前記表示手段に表示し、
表示された第2の文字列のうちの1つを指定すると、指定された第2の文字列に関連して検索された前記情報を、前記表示手段に表示する
請求項1記載の音声処理装置。 - マイクロフォンを有する音声処理方法であって、
前記マイクロフォンから集音した集音信号を第1の文字列に変換するステップと、
前記第1の文字列から、特定の文法的特徴を有する第2の文字列を抽出するステップと、
通信網に接続し、前記通信網から前記第2の文字列に関連する情報を検索するステップと
を具備する音声処理方法。 - 前記第1の文字列を、前記第2の文字列のみ区別して表示するステップと、
表示された第2の文字列のうちの1つを指定すると、指定された第2の文字列に関連して検索された前記情報を表示するステップと
をさらに具備する請求項4記載の音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003383946A JP2005151037A (ja) | 2003-11-13 | 2003-11-13 | 音声処理装置および音声処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003383946A JP2005151037A (ja) | 2003-11-13 | 2003-11-13 | 音声処理装置および音声処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005151037A true JP2005151037A (ja) | 2005-06-09 |
Family
ID=34692522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003383946A Pending JP2005151037A (ja) | 2003-11-13 | 2003-11-13 | 音声処理装置および音声処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005151037A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007200321A (ja) * | 2006-01-27 | 2007-08-09 | Xerox Corp | 言語ユーザインターフェース |
JP2011043716A (ja) * | 2009-08-21 | 2011-03-03 | Sharp Corp | 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム |
CN111738024A (zh) * | 2020-07-29 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
-
2003
- 2003-11-13 JP JP2003383946A patent/JP2005151037A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007200321A (ja) * | 2006-01-27 | 2007-08-09 | Xerox Corp | 言語ユーザインターフェース |
JP2011043716A (ja) * | 2009-08-21 | 2011-03-03 | Sharp Corp | 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム |
CN101998107A (zh) * | 2009-08-21 | 2011-03-30 | 夏普株式会社 | 信息处理装置、会议系统和信息处理方法 |
CN101998107B (zh) * | 2009-08-21 | 2013-05-29 | 夏普株式会社 | 信息处理装置、会议系统和信息处理方法 |
CN111738024A (zh) * | 2020-07-29 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
CN111738024B (zh) * | 2020-07-29 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4028375B2 (ja) | 言語に無関係な音声ベースのサーチ・システム | |
US8380516B2 (en) | Retrieval and presentation of network service results for mobile device using a multimodal browser | |
US10672391B2 (en) | Improving automatic speech recognition of multilingual named entities | |
TWI506982B (zh) | 音訊聊天系統、資訊處理裝置、語音辨識方法、關鍵字偵測方法、及記錄媒體 | |
JP4987203B2 (ja) | 分散型リアルタイム音声認識装置 | |
JP5042799B2 (ja) | 音声チャットシステム、情報処理装置およびプログラム | |
US11093110B1 (en) | Messaging feedback mechanism | |
EP1089193A2 (en) | Translating apparatus and method, and recording medium used therewith | |
JP3581881B2 (ja) | 音声補完方法、装置および記録媒体 | |
JP4987682B2 (ja) | 音声チャットシステム、情報処理装置、音声認識方法およびプログラム | |
JP2000137596A (ja) | 対話型音声応答システム | |
JP2004355629A (ja) | 高度対話型インターフェースに対する理解同期意味オブジェクト | |
JP2004355630A (ja) | 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト | |
WO2000058943A1 (fr) | Systeme et procede de synthese de la parole | |
EP1685556B1 (en) | Audio dialogue system and voice browsing method | |
JP2010048953A (ja) | 対話文生成装置 | |
JP6625772B2 (ja) | 検索方法及びそれを用いた電子機器 | |
US20070016420A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
WO2022238881A1 (en) | Method and system for processing user inputs using natural language processing | |
JP2007328283A (ja) | 対話装置、プログラム、及び対話方法 | |
Ablimit et al. | A multilingual language processing tool for Uyghur, Kazak and Kirghiz | |
JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
JP2005151037A (ja) | 音声処理装置および音声処理方法 | |
WO2021161856A1 (ja) | 情報処理装置及び情報処理方法 | |
KR20110066622A (ko) | 음성인식 기반 국제회의 통역 장치 및 방법 |