JP2005151037A

JP2005151037A - 音声処理装置および音声処理方法

Info

Publication number: JP2005151037A
Application number: JP2003383946A
Authority: JP
Inventors: Hideharu Fujiyama; 英春藤山; Ryuichi Tanaka; 竜一田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-11-13
Filing date: 2003-11-13
Publication date: 2005-06-09

Abstract

【課題】音声を認識して音声に含まれる単語に基づいて、通信網より取得可能な情報を検索する音声処理装置および音声処理方法を提供する。
【解決手段】マイクロフォン１０と、音声認識処理部２２と、音声認識メモリ２３と、構文解析処理部２４と、辞書メモリ２５と、情報検索処理部２６と、通信処理部２７と、データ蓄積メモリ２８と、表示部３０とを有し、マイクロフォン１０から入力した音声信号を音声認識処理部２２が文字列データ（テキストデータ）に変換し、構文解析処理部２４がそのテキストデータから名詞の単語のみを抽出し、情報検索処理部２６および通信処理部２７が、抽出した名詞の単語に関連するＵＲＬ情報を電話回線を介して通信網に接続されたサーバ装置に検索させ、抽出した名詞の単語と該単語に対応する検索結果（ＵＲＬ情報）、および音声認識処理部２２が生成したテキストデータを関連付けてデータ蓄積メモリ２８が記憶し、表示部３０の表示画面上に音声認識処理部２２が生成したテキストを表示する。その際、テキスト中の名詞の単語を検索したＵＲＬ情報とリンクさせて表示する。
【選択図】図１

Description

本発明は、マイクロフォンから入力した音声を音声認識処理する音声処理装置および音声処理方法に関するものである。

近年、インターネット等に利用し、所定のキーワードについて、さらに詳細な情報を取得することが一般的となっている。
すなわち、所定のキーワードについて詳細な情報を知りたい場合には、パーソナルコンピュータ（ＰＣ）を操作してインターネット等の通信網に接続し、通信網に接続されたサーバ上の検索エンジンにアクセスすることにより、知りたい項目についてのＵＲＬ(Uniform Resource Locator)を検索させる方法は頻繁に行われているところである。

ところで、キーワードについて、上述したインターネット等を利用した検索方法は、十分に操作時間がある場合には問題なく実行可能であるが、インターネット等を利用した検索を行うためにＰＣを操作する時間がない状況も起こりうる。
たとえば、会議のディスカッション中に話題となった内容について、さらに詳しく知りたい場合であっても、会議の議論に集中しているので、ＰＣ操作により必要な情報を即時的に得ることができず、情報を取得する機会を失う場合がある。
かかる場合に、会議におけるディスカッションに参加し、かつ、会議のディスカッション中に話題となった内容についてインターネット等を利用した情報の検索を、同時に行うことができれば利便である。

本発明はかかる事情に鑑みてなされたものであり、その目的は、音声を認識して音声に含まれる単語に基づいて、通信網より取得可能な情報を検索する音声処理装置および音声処理方法を提供することにある。

上記目的を達成するために本発明の第１の観点は、マイクロフォンと、前記マイクロフォンから集音した集音信号を第１の文字列に変換する音声認識手段と、前記第１の文字列から、特定の文法的特徴を有する第２の文字列を抽出する文字列解析手段と、通信網に接続され、前記通信網から前記第２の文字列に関連する情報を検索する通信手段とを具備する音声処理装置である。

好適には、前記第２の文字列と検索された前記情報のアドレスとを対応付けて記憶する記憶手段をさらに具備する。

好適には、表示手段をさらに具備し、前記第１の文字列を、前記第２の文字列のみ区別して前記表示手段に表示し、表示された第２の文字列のうちの１つを指定すると、指定された第２の文字列に関連して検索された前記情報を、前記表示手段に表示する。

上記目的を達成するために本発明の第２の観点は、マイクロフォンを有する音声処理方法であって、前記マイクロフォンから集音した集音信号を第１の文字列に変換するステップと、前記第１の文字列から、特定の文法的特徴を有する第２の文字列を抽出するステップと、通信網に接続し、前記通信網から前記第２の文字列に関連する情報を検索するステップとを具備する。

本発明の第１の観点に係る音声処理装置によれば、音声認識手段は、マイクロフォンから集音した集音信号を第１の文字列に変換し、文字列解析手段は、前記第１の文字列から、特定の文法的特徴を有する第２の文字列を抽出し、通信網に接続された通信手段により、前記通信網から前記第２の文字列に関連する情報を検索するので、音声処理装置が入力した音声に含まれる特定の単語に関する情報を、特別な操作をすることなく取得することが可能となる。

本発明によれば、音声を認識し、音声に含まれる単語に基づいて、通信網から取得可能な情報を検索するので、音声に含まれる単語をキーボード等の入力手段に入力して検索する必要がなく、利便性が向上するという利点がある。

実施形態
以下、本発明の実施形態について、添付図面に関連付けて説明する。
図１は、本発明の音声処理装置が適用される１例を示す構成図である。
図１に図解したように、会議参加者Ａ１，Ａ２により行われている会議において、テーブルの上に、本発明の音声処理装置１が設置されている。
音声処理装置１は、電話回線９００に接続され、インターネット等の通信網２に接続される。
なお、図１のように、音声処理装置１から直接電話回線９００により通信網２に接続させてもよいし、音声処理装置１から、図示しないＬＡＮユニット等の中継サーバを介して通信網２に接続させてもよい。また、音声処理装置１から、無線通信により中継基地局を介して通信網２に接続させてもよい。

また、後述するように、音声処理装置１が有するマイクロフォンが、会議上のテーブル等に設置されて、会議参加者Ａ１，Ａ２の音声を入力する。

通信網２には、サーバ３が接続されている。
サーバ３は、いわゆる検索エンジンを備え、通信網２を介して入力される文字列データ（テキストデータ）に応じた情報を出力する。たとえば、音声処理装置１より通信網２を介して文字列データを入力すると、入力した文字列データ（テキストデータ）を含むＵＲＬ等のアドレス情報を検索し、検索したアドレス情報を、通信網２を介して音声処理装置１に返信する。

次に、図２と関連付けて、本実施形態における音声処理装置１の各構成要素について説明する。
図２に示すとおり、本実施形態における音声処理装置１は、マイクロフォン１０と、音声処理部２０と、表示部３０とから構成される。音声処理部２０は、Ａ／Ｄ変換器２１と、音声認識手段としての音声認識処理部２２と、音声認識メモリ２３と、文字列解析手段としての構文解析処理部２４と、辞書メモリ２５と、情報検索処理部２６と、通信手段としての通信処理部２７と、データ蓄積メモリ２８とを有している。
音声処理部２０は、各処理部のシーケンス制御およびタイミング制御等を司るＣＰＵ（図示しない）を含んで構成される。
また、通信処理部２７は、外部の通信網を入出力を行うための端子Ｎ１に接続されている。

マイクロフォン１０は、音声処理装置１の外部の音声をアナログ信号として入力する。したがって、図１に示すように、会議参加者Ａ１またはＡ２の発した音声を、音声処理部２０の後段の処理において十分に認識できるように、会議参加者Ａ１またはＡ２に近接して配置される。

Ａ／Ｄ変換器２１は、マイクロフォン１０が出力した音声のアナログ信号Ｓ１０をディジタルの音声信号Ｓ２１に変換する。

音声認識処理部２２は、Ａ／Ｄ変換器２１から入力する音声のディジタル信号Ｓ２１に基づいて、音声認識処理を行うことにより、テキストデータＳ２２に変換して構文解析処理部２４およびデータ蓄積メモリ２８に出力する。
具体的には、Ａ／Ｄ変換器２１からディジタルの音声信号Ｓ２１を入力すると、入力された音声信号を分析し、後述するように、音声認識メモリ２３に格納された音響モデルから音響的な特徴量（音響特徴）を抽出する。すなわち、入力された音声信号Ｓ２１に対して、音声認識に用いる基本的な音の単位、すなわち、子音や母音などの人間の発音の小さい単位（音素）ごとに音響特徴を抽出する。
さらに、音声認識処理部２２は、抽出した音声信号Ｓ２１の音素ごとの音響特徴を、音声認識メモリ２３に格納された認識辞書と参照し、認識対象のテキストデータの中で、入力された音声信号Ｓ２１の各音素に最も近い候補を、音声認識結果（テキストデータである信号Ｓ２２）として出力する。すなわち、認識辞書には、音素単位の音響特徴に対応するテキストデータが記述されているので、信号Ｓ２１から抽出した音響特徴を、認識辞書に記述された音響特徴と比較して、その中で最も近い音響特徴に対応するテキストデータを選択して出力する。

なお、その際、上述した音声認識における認識率を向上させるため、認識したい言葉をあらかじめ特定の人の声で登録しておくことで、登録者の音声が特に良く認識可能とするように構成することも可能である（特定話者音声認識）。したがって、会議を行う話者（会議参加者）が特定されている場合には、これらの会議参加者の音響特徴を音声認識メモリ２３に登録しておくことで、音声認識の認識率を向上させることができる。

音声認識メモリ２３には、上述した音響モデルと認識辞書が格納されている。
音響モデルは、人間の発音の小さな単位（音素）が音響特徴によって記述されており、音声信号の音素単位と対応する音響特徴を参照することが可能となる。この音響特徴は、多数の話者の音声から求めた音素の統計的な音響特徴情報である。
認識辞書には、音声認識をさせるテキストデータが記述されており、音素単位の音響特徴に対応するテキストデータを参照することが可能となる。

構文解析処理部２４は、音声認識処理部２２よりテキストデータＳ２２を入力し、構文解析処理をした後に、名詞の単語のみを抽出したテキストデータＳ２４を出力する。
構文解析処理とは、テキストの構文的な構造を解析する処理であり、構文解析処理については、様々な翻訳処理ソフトウエアに組み込まれたアルゴリズムが公知技術として知られており、それらを適用することが可能である。たとえば、入力したテキストデータから名詞の単語を抽出する場合、一般に、下記のような処理が必要となる。
（１）構文木の作成
入力したテキストデータ（信号Ｓ２２）を文節し、所定の文法規則に基づいて、構文木を作成する。文法規則には、文節間の修飾関係や係り受け条件等含まれている。
これにより、各文節に含まれる主語，述語等を特定し、文節間の関連がツリー構造で記述されるデータ（構文木）を作成する。
（２）構文木からの名詞の抽出
得られた構文木から、名詞のみを抽出し、テキストデータＳ２４として出力する。
なお、構文木が作成されているので、名詞に限定されず、他の属性（形容詞、接続詞等）を有する単語を抽出することも可能である。

辞書メモリ２５は、構文解析処理部２４で実行される構文解析処理に必要な単語データとその属性（動詞，形容詞等）とを関連付けられて記憶する。
なお、辞書メモリ２５に対して、音声処理装置１の外部からアクセスすることにより、新規単語データを適宜、追加登録可能に構成されることは言うまでもない。

情報検索処理部２６は、構文解析処理部２４により抽出されて出力された名詞のテキストデータを入力し、通信処理部２７に対して、そのテキストデータに関連し、通信網から得られる情報を取得するように指示する。
さらに、情報検索処理部２６は、通信処理部２７から名詞のテキストデータに関連した情報（文字列データ）を受けると、その情報（文字列データ）をデータ蓄積メモリ２８に対して出力する（信号Ｓ２６）。

通信処理部２７は、端子Ｎ１に接続され、情報検索処理部２６よりテキストデータを入力すると、電話回線９００を介して通信網２に接続されたサーバ３にアクセスし、入力したテキストに関連する情報をサーバ３の検索エンジンに検索させる。
入力したテキストに関連する情報としては、入力したテキストを含むＵＲＬ情報が一般的であるが、これに拘泥せず、入力したテキストデータに関連し、通信網から得られる情報であれば何でも構わない。

データ蓄積メモリ２８は、音声認識処理部２２より入力したテキストデータＳ２２に含まれるテキストと、テキストデータＳ２４に含まれる名詞のテキストと、各名詞のテキストに対応した文字列データＳ２６に含まれるＵＲＬ情報等の文字列と、を関連付けて記憶する。

表示部３０は、たとえば、プロジェクタ等により表示される表示画面を含んで構成される。
図示しない音声処理部２０を統括するＣＰＵは、データ蓄積メモリ２８が音声認識処理部２２より入力したテキストデータ（テキスト）を、表示部３０に出力する。その際、表示部３０は、テキストに含まれる名詞の単語を、テキストに含まれる名詞以外の属性の単語と区別して表示する。たとえば、名詞の単語のみアンダーラインを付したり、名詞の単語のみ色を変えて表示する。
そして、区別して表示された名詞の単語については、データ蓄積メモリ２８により情報検索処理部２６が取得したＵＲＬ情報等と関連付けられているので、いわゆるリンクを張るということが可能となる。すなわち、表示部３０の表示画面上に表示されたテキストの中で、区別して表示された名詞の単語の１つを、所定の入力手段（音声処理装置１に接続されたマウス等によるクリック入力）により指定すると、通信処理部２７が電話回線９００を介して通信網に接続し、指定された名詞の単語に対応するＵＲＬのホームページを表示部３０の表示画面に表示させることが可能となる。

以上、音声処理装置１の各構成要素について説明した。
次に、音声処理装置１の処理動作について、図１，２に関連付けて説明する。
下記においては、図１に示す会議参加者Ａ１が、『大崎駅には山手線、りんかい線が止まります。』と発言した場合を想定し、音声処理装置１の処理動作について説明することとする。

会議参加者Ａ１の発言である『大崎駅には山手線、りんかい線が止まります』を、マイクロフォン１０がアナログの音声信号として入力すると、先ず、Ａ／Ｄ変換器２１によりディジタルの音声信号に変換される。
ディジタルの音声信号を入力した音声認識処理部２２は、その音声信号を音声認識処理して、『大崎駅には山手線、りんかい線が止まります』のテキストデータ（信号Ｓ２２）を生成して、構文解析処理部２４およびデータ蓄積メモリ２８に出力する。

すなわち、入力したディジタルの音声信号Ｓ２１を分析し、音声認識メモリ２３に格納された音響モデルから音響的な特徴量（音響特徴）を抽出する。つまり、入力された音声信号Ｓ２１に対して、音声認識に用いる基本的な音の単位、すなわち、子音や母音などの人間の発音の小さい単位（音素）ごとに音響特徴を抽出する。
さらに、音声認識処理部２２は、抽出した音声信号Ｓ２１の音素ごとの音響特徴を、音声認識メモリ２３に格納された認識辞書と参照し、認識対象のテキストデータの中で、入力された音声信号Ｓ２１の各音素に最も近い候補を、音声認識結果（テキストデータである信号Ｓ２２）として出力する。すなわち、認識辞書には、音素単位の音響特徴に対応するテキストデータが記述されているので、信号Ｓ２１から抽出した音響特徴を、認識辞書に記述された音響特徴と比較して、その中で最も近い音響特徴に対応するテキストデータを選択して出力する。

構文解析処理部２４は、『大崎駅には山手線、りんかい線が止まります』のテキストデータを構文解析処理して、名詞の単語のみを抽出する。
すなわち、入力したテキストデータ（信号Ｓ２２）を文節し、所定の文法規則に基づいて、構文木を作成する。これにより、各文節に含まれる主語，述語等を特定し、文節間の関連がツリー構造で記述されるデータ（構文木）を作成する。
さらに、得られた構文木から、名詞の単語のみを抽出し、テキストデータＳ２４として出力する。具体的には、テキストデータＳ２４には、『大崎駅』，『山手線』および『りんかい線』が含まれる。

情報検索処理部２６は、『大崎駅』，『山手線』および『りんかい線』が含まれるテキストデータＳ２４を受けると、これらのテキストを検索するように通信処理部２７に指示する。
情報検索処理部２６より検索指示を受けると、通信処理部２７は、電話回線９００を介してインターネット等の通信網２に接続されたサーバ３の検索エンジンに、上述したテキスト（『大崎駅』，『山手線』および『りんかい線』）を検索させる。
サーバ３の検索エンジンにより検索された情報、たとえば上述したテキストを含むＵＲＬの情報（文字列データ）が通信処理部２７に返信されると、通信処理部２７は、その返信された情報を情報検索処理部２６に出力する。
たとえば、サーバ３の検索エンジンにより検索された情報としては、表１に示すようなＵＲＬの情報となる。

〔表１〕
「大崎駅」：http://ekikara.jp/main.cgi?station2762
http://www.asahi-net.or.jp/jt7t-enmt/yamate/oosaki.html
…
「山手線」：http://ekikara.jp/main.cgi?line198
http://homepage2.nifty.com/yamanotesen/
…
「りんかい線」：http://www.twr.co.jp
http://www.bigsight.jp/access-c/rinkai-c.html
…

情報検索処理部２６は、通信処理部２７より検索結果を受信すると、その検索結果をデータ蓄積メモリ２８に出力する。

データ蓄積メモリ２８は、音声認識処理部２２から入力したテキストデータ（『大崎駅には山手線、りんかい線が止まります』）と、入力したテキストデータに含まれる各名詞の単語テキストデータ（『大崎駅』，『山手線』および『りんかい線』）と、各名詞の単語に対応する上記表１のＵＲＬ情報とを関連付けて記憶する。
そして、図示しない音声処理部２０を統括するＣＰＵが、データ蓄積メモリ２８が記憶したテキストデータ（『大崎駅には山手線、りんかい線が止まります』）を、表示部３０の表示画面に表示させる。
その際、下記表２に示すように、たとえば、テキストの名詞部分にはアンダーラインを付し、名詞以外の属性を有する単語と区別して表示させる。

〔表２〕
『大崎駅には山手線、りんかい線が止まります』

各名詞の単語（『大崎駅』，『山手線』および『りんかい線』）は、データ蓄積メモリ２８において、表１に示す各ＵＲＬ情報と関連付けられているので、いわゆるリンクを張るということが可能となる。すなわち、所定の入力手段（音声処理装置１に接続されたマウス等によるクリック入力）により、表２でアンダーラインを付した名詞の単語のうちの１つを選択・指定すると、通信処理部２７が電話回線９００を介して通信網に接続し、選択された名詞の単語に対応するＵＲＬのホームページを表示部３０の表示画面に表示させる。
表１で示すように、選択された名詞の単語に対応するＵＲＬのホームページが複数存在する場合には、その複数のホームページを表示画面上に表示させて選択できるようにすればよい。

以上説明したように、本実施形態における音声処理装置１によれば、マイクロフォン１０と、音声認識処理部２２と、音声認識メモリ２３と、構文解析処理部２４と、辞書メモリ２５と、情報検索処理部２６と、通信処理部２７と、データ蓄積メモリ２８と、表示部３０とを有し、マイクロフォン１０から入力した音声信号を音声認識処理部２２が文字列データ（テキストデータ）に変換し、構文解析処理部２４がそのテキストデータから名詞の単語のみを抽出し、情報検索処理部２６および通信処理部２７が、抽出した名詞の単語に関連するＵＲＬ情報を電話回線を介して通信網に接続されたサーバ装置に検索させ、抽出した名詞の単語と該単語に対応する検索結果（ＵＲＬ情報）、および音声認識処理部２２が生成したテキストデータを関連付けてデータ蓄積メモリ２８が記憶し、表示部３０の表示画面上に音声認識処理部２２が生成したテキストを表示する。その際、テキスト中の名詞の単語を検索したＵＲＬ情報とリンクさせて表示するので、以下の効果を得ることができる。

すなわち、
（１）会議において２人以上が話をしている場合に、話題となっている特定のキーワードについて知りたい情報がある場合でも、会話を中断することなく、自動的に必要な情報が取得できるので、会議参加者は、会話に集中することができる。
（２）特定のキーワードについて調べるために会議を中断する必要がなく、結果として会議を短時間で済ませることができる。
（３）会議中に情報を取得する必要がない場合であっても、会議中に話題となっていた特定のキーワードについて、会議終了後に調べる必要がなく、時間の節約となり利便である。

本発明の実施形態は、上述した実施形態に限定されず、様々な変更が可能である。
たとえば、上述した実施形態においては、入力した音声信号を変換したテキストに含まれるすべての名詞の単語について検索することとしたが、発話された音声に相当するすべてのテキストを表示部３０に表示し、そのテキストに含まれるすべての名詞の単語を検索することは、煩雑であるし、データ蓄積メモリ２８のメモリ容量の制限からも望ましくないことが考えられる。
したがって、音声処理部２０に対して所定のコマンドを入力することで、データ蓄積メモリ２８から表示部３０に対する出力を制御することができる。たとえば、所定のコマンドが音声処理部２０に入力された場合には、データ蓄積メモリ２８から表示部３０へ出力しないようにＣＰＵを構成することもできる。

また、情報検索処理部２６に対して所定のコマンドを入力することで、情報検索処理部２６が通信処理部２７が検索指示するＵＲＬの数を制限するように、情報検索処理部２６を構成することもできる。

また、音声処理部２０に対して文字列を入力することで、情報検索処理部２６から通信処理部２７に対して検索を指示する単語を限定するように制御することができる。たとえば、音声処理部２０に入力された文字列を含む名詞の単語についてのみ検索指示するように、情報検索処理部２６を構成することもできる。

本発明の各実施形態における音声処理装置の適用例の１例を示す図である。本発明の実施形態における音声処理装置の回路ブロック図の１例を示した図である。

符号の説明

１…音声処理装置、２…通信網、３…サーバ、１０…マイクロフォン、２０…音声処理部、２１…Ａ／Ｄ変換器、２２…音声認識処理部、２３…音声認識メモリ、２４…構文解析処理部、２５…辞書メモリ、２６…情報検索処理部、２７…通信処理部、２８…データ蓄積メモリ、３０…表示部、９００…電話回線。

Claims

マイクロフォンと、
前記マイクロフォンから集音した集音信号を第１の文字列に変換する音声認識手段と、前記第１の文字列から、特定の文法的特徴を有する第２の文字列を抽出する文字列解析手段と、
通信網に接続され、前記通信網から前記第２の文字列に関連する情報を検索する通信手段と
を具備する音声処理装置。
前記第２の文字列と検索された前記情報のアドレスとを対応付けて記憶する記憶手段
をさらに具備する請求項１記載の音声処理装置。
表示手段をさらに具備し、
前記第１の文字列を、前記第２の文字列のみ区別して前記表示手段に表示し、
表示された第２の文字列のうちの１つを指定すると、指定された第２の文字列に関連して検索された前記情報を、前記表示手段に表示する
請求項１記載の音声処理装置。
マイクロフォンを有する音声処理方法であって、
前記マイクロフォンから集音した集音信号を第１の文字列に変換するステップと、
前記第１の文字列から、特定の文法的特徴を有する第２の文字列を抽出するステップと、
通信網に接続し、前記通信網から前記第２の文字列に関連する情報を検索するステップと
を具備する音声処理方法。
前記第１の文字列を、前記第２の文字列のみ区別して表示するステップと、
表示された第２の文字列のうちの１つを指定すると、指定された第２の文字列に関連して検索された前記情報を表示するステップと
をさらに具備する請求項４記載の音声処理方法。