JP2010128665A

JP2010128665A - 情報端末及び会話補助プログラム

Info

Publication number: JP2010128665A
Application number: JP2008300914A
Authority: JP
Inventors: Goji Higuchi; 剛司樋口
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2008-11-26
Filing date: 2008-11-26
Publication date: 2010-06-10

Abstract

【課題】利用者の操作を伴わずに、会話をスムーズに進めるためのデータを提供することができる携帯通信端末を提供することを課題とする。
【解決手段】携帯通信端末１００は、マイク１０７から音声を取得し、会話に含まれる単語を抽出して記憶部１１４に記憶しておく。並行して取得される音声の音量が、音量閾値を下回る時間（無音時間）を計測し、計測した無音時間が時間閾値以上である場合、記憶している語句を基に、インターネットを介して会話に関連する情報を取得し、利用者に提示する。
【選択図】図３

Description

本発明は、携帯通信端末に関するものであって、特に、複数の利用者による会話を補助する技術に関する。

会議などの場で音声を録音し、録音した音声を、話者の交代時、話題の変化点などで区切って、音声ファイルを生成し、各ファイルの音声信号を基に、音声認識技術を用いて索引を生成する技術が開示されている（特許文献１）。
この技術によると、会議の進行中であっても、利用者は、パソコンなどの端末からキーワードを入力して、会議中に話題に上った内容に関する音声ファイルを参照したり、他の利用者に提示したりすることができる。
特開２００８−５９０７７号公報

しかしながら、上記の技術では、会議中に、何らかの情報が必要となった場合、必要な情報を得るために、端末などへキーワードの入力を行わなければならないため、入力者が、入力中、会議に集中できなかったり、情報の検索のために、会議自体が中断してしまったりする。また、誰かが話をしている最中に情報の提示が為されると、会議進行の妨げになる恐れがある。ここで、本明細書において、「会議」とは、複数の人が集まり討論、決議などを行うことであって、「会話」とは、複数の人が、相互に発話したり聞いたりすることにより共通の話題についてやり取りをすることである。会話は、会議を進めるための重要な手段である。

上記の問題を解決するため、本発明は、会話参加者による意図的な入力を伴わずに、会話を円滑に進めるための情報を提供することができる情報端末、会話補助プログラムを提供することを目的とする。

上記の問題を解決するために、本発明は、音声を集音する集音手段と、集音された音声から、キーワードを抽出する抽出手段と、集音される音声の音量が音量閾値以下となる時間を計測し、計測した時間が時間閾値以上であるか否かを判断する判断手段と、抽出されたキーワードに関連する関連情報を取得し、判断結果を基に、取得した関連情報を出力する出力手段とを備えることを特徴とする情報端末である。

この構成によると、抽出手段は、集音した音声からキーワードを抽出し、出力手段は、音量が音量閾値以下である時間が、時間閾値以上であるか否かの判断結果に応じて、キーワードに関連する関連情報の取得及び表示を行う。そのため、音量が音量閾値以下の時間、つまり会話が停滞している時間の長さに応じて、利用者（会話参加者）は、それまでの会話に関連する関連情報を、自動的に得ることができるという優れた効果を奏する。

１．実施の形態１
以下に、本発明の１つの実施の形態について、図面を用いて説明する。
１．２概要
図１は、本実施の形態１における携帯通信端末１００の使用例を示している。携帯通信端末１００は具体的には、携帯電話、電子手帳、携帯型音楽プレーヤー、携帯型ゲーム機などが考えられる。

ここでは、一例として、利用者Ｈ２０１〜Ｈ２０７が携帯通信端末１００の周りに集まり、旅行に関する会議を行っている。各利用者は、それぞれ、時刻Ｔ１、Ｔ２、Ｔ３・・・（Ｔ１＜Ｔ２＜Ｔ３・・・）に、各自の意見などを発言している。なお、時刻Ｔ７及び時刻Ｔ８において、利用者Ｈ２０２及び利用者Ｈ２０４は、特に何も発言しておらず、図１の吹き出し中の「・・・。」は、無言であることを表している。

つまり、時刻Ｔ６における利用者Ｈ２０７の発言を最後に、発話する利用者が途絶え、会話が停滞している。
携帯通信端末１００は、マイク及び音声認識機能を備えており、逐次、音声を集音し、集音した音声から語句を抽出し、逐次、記憶する。また、一定期間、集音される音声の音量が所定の閾値を下回った場合、つまり、会話が停滞し、誰も発言しない状態が続くと、それまでに記憶していた語句から、会議の話題に適合すると予測されるキーワードを抽出する。そして、基地局１５及びインターネット２０を介して、抽出したキーワードを、検索サイトサーバ装置２５へ送信し、検索を依頼する。

続いて、携帯通信端末１００は、検索サイトサーバ装置２５による検索結果（本実施の形態では、○×旅行会社の所有する○×旅行会社サーバ２６のＵＲＬ（Uniform Resource Locator）を含む）を受信し、受信した検索結果を基に○×旅行会社サーバ２６へアクセスして、旅行会社の広告サイトの画像データを取得し、取得した画像データに基づく画面１０１を、時刻Ｔ９に、壁やスクリーンに表示する。

このように、本発明の携帯通信端末１００は、会話が停滞した場合に、会話の補助となるような情報を取得し、利用者に提示することができる。
以下、本明細書において、携帯通信端末１００によるこの一連の処理を会話補助と呼ぶ。
１．３携帯通信端末１００の構成
図２は、携帯通信端末１００の物理的構成を示すブロック図である。図２に示すように、携帯通信端末１００は、アンテナ１０２、信号処理部１０３、時計１０４、スピーカー１０６、マイク１０７、エンコーダ／デコーダ１０８、ＬＣＤ（Liquid Crystal Display）１０９、無音判断部１１１、音声認識部１１２、制御部１１３、記憶部１１４、プロジェクタ部１１６、入力部１１７から構成される。

また、図３は、制御部１１３内の機能的構成及びデータフローを示す機能ブロック図である。
以下に、各構成要素について説明する。
（１）アンテナ１０２及び信号処理部１０３
信号処理部１０３は、制御部１１３と接続されており、制御部１１３の制御の下、アンテナ１０２を介して、基地局１５との間で電波の送受信を行う回路である。

信号処理部１０３は、変復調機、増幅器などを含んでおり、通話時には、音声を電波に変換して送受信する。また、制御部１１３の指示により各種のデータを電波に変換して、送受信する。
（２）時計１０４
時計１０４は、現在時刻を計時する回路である。

（３）スピーカー１０６、マイク１０７及びＬＣＤ１０９
スピーカー１０６は、エンコーダ／デコーダ１０８によるデコード処理により生成された音声を再生する機構である。
マイク１０７は、周囲の音声を集音し、集音した音声をエンコーダ／デコーダ１０８へ出力する。

ＬＣＤ１０９は、バックライトユニット、液晶パネルなどを含んで構成され、エンコーダ／デコーダ１０８によるデコード処理により生成された画像及び制御部１１３から出力された画像を表示する。
（４）エンコーダ／デコーダ１０８
エンコーダ／デコーダ１０８は、所定の規格に従った方式で音声データ及び画像データをエンコード及びデコードする回路である。所定の規格とは、一例としてＭＰＥＧ４などが考えられる。

また、エンコーダ／デコーダ１０８は、マイク１０７により集音された音声を音声認識部１１２及び無音判断部１１１へ出力する。
（５）プロジェクタ部１１６
プロジェクタ部１１６は、表示機構、レンズ、光源などを含んで構成され、制御部１１３から出力される表示画面を、拡大してスクリーンなどに投影表示する。

この構成を備えているので、壁などに大きく画面を表示できるため、会話参加者各々、つまり複数の利用者が、同時に画面を見ることができる。
（６）入力部１１７
入力部１１７は、筺体表面に備えられたテンキー、決定キーなど複数のキーと、キーの押下を検出する回路から構成される。複数のキーには、会話補助のスタートキー及びストップキーが含まれる。入力部１１７は、スタートキーが押下されると、会話の開始を示す会話開始通知を、ストップキーが押下されると会話終了通知を制御部１１３へ出力する。

（７）無音判断部１１１
無音判断部１１１は、制御部１１３による制御の下、エンコーダ／デコーダ１０８から音声を取得し、取得した音声の音量が継続して音量閾値（後述）以下となる無音時間を計測する回路である。
無音判断部１１１は、内部のメモリに音量閾値「−７０ｄｂ」１２１と時間閾値「３０秒」１２２とを記憶している。また、図３に示すように、無音判断部１１１は、比較器１３０及びタイマ１３１を備えている。

音量閾値１２１は、一般的に、人が会話をする際の最低音量であって、ここでは、一例として「−７０ｄｂ」としている。時間閾値１２２は、会話が滞っていると推定される時間長であって、ここでは、一例として「３０秒」としている。
音量閾値１２１及び時間閾値１２２は、携帯通信端末１００の製造時に設定されるとしても良いし、出荷後、利用者の操作により設定されるとしてもよい。

無音判断部１１１は、取得した音声をデジタル信号に変換し、音量（単位ｄｂ）を計測する機能を備える。最大０ｄｂまで計測することができる。無音判断部１１１は、比較器１３０により計測された音量と音量閾値１２１とを比較し、タイマ１３１により、計測された音量が音量閾値１２１以下である無音時間を計測する。計測した無音時間が、時間閾値１２２を超えると、制御部１１３へ、会話が滞っていることを示す無音通知を出力する。なお、無音通知は、計測した無音時間が、時間閾値１２２を超えた時刻を含んでいるとしても良い。

なお、無音判断部１１１は、集音された音声の音量を計測できればよいので、エンコーダ／デコーダ１０８を介さず、マイク１０７と直接接続されていてもよい。
（８）音声認識部１１２
音声認識部１１２は、制御部１１３による制御の下、エンコーダ／デコーダ１０８から音声を取得し、取得した音声を解析して語句を抽出する回路である。

音声認識部１１２は、多数の語句について、その語句を発音した際の音の波形を含む辞書１２３を内部に記憶しており、これを参照して語句の抽出を行う。
音声認識部１１２は、抽出した語句とその語句を含む音声を取得した時刻の組（以下、語句データと呼ぶ）を制御部１１３へ出力する。なお、音声を取得した時刻は、利用者が、発話した時刻と略同一とする。

（９）記憶部１１４
記憶部１１４は、例えばＲＡＭ、フラッシュメモリなどにより構成され、制御部１１３から出力されるデータを記憶する機能を有する。一例として、図３に示すように、複数の語句データ１２６、１２７・・・を記憶している。これらは、音声認識部１１２により生成されたデータであり、音声認識部１１２により抽出された語句と、その語句を含む音声を取得した時刻とから構成される。

例えば、語句データ１２６は、時刻Ｔ１「１３：３０：３０」及び語句「旅行」から構成される。なお、上記の「１３：３０：３０」は、１３時３０分３０秒を示しており、以下の説明において、具体的に時刻を記載する場合は、同様に「時：分：秒」と記載する。
（１０）制御部１１３
制御部１１３は、携帯通信端末１００を構成する各構成要素を制御する回路であって、具体的にはプロセッサ及びＲＡＭ、ＲＯＭを含んで構成される。ＲＡＭ、ＲＯＭには、コンピュータプログラムが記憶されており、プロセッサがコンピュータプログラムに従って動作することで、制御部１１３はその機能を達成する。

図３に示すように、制御部１１３は、会話補助制御部１２４、キーワード抽出部１２５及び画像出力部１２９から構成される。これらの機能部も、プロセッサが会話補助処理を記述したアプリケーションプログラムに従って動作することで実現される。
以下、各機能部について説明する。
（１０−１）キーワード抽出部１２５
キーワード抽出部１２５は、会話が停滞したと推定される場合に、直近の会話に含まれるキーワードを抽出し、抽出したキーワードに関する情報の検索を依頼する機能を担う。

キーワード抽出部１２５は、対象期間「５分間」１２８を記憶している。また、所定の検索サイトのＵＲＬを記憶している。
会話補助制御部１２４から無音通知を取得する。無音通知を取得すると、記憶部１１４に記憶されている語句データの中から、現在時刻（若しくは、取得した無音通知に含まれる時刻）を終期とする対象期間「５分間」に含まれる時刻に生成された語句データを特定し、特定した語句データに含まれる語句を読み出し、読み出した語句のうち、出現回数の最も多い語句をキーワードとして抽出する。次に、キーワード抽出部１２５は、記憶しているＵＲＬの示す検索サイトサーバ装置２５へ、抽出したキーワードを送信して、検索を依頼する機能を有する。

ここで、キーワード抽出部１２５は、無音時刻を取得した時刻（若しくは無音通知に含まれる時刻、つまり、無音時間が時間閾値を超えた時刻）を終期とする対象期間「５分間」に発話及び記録された語句の中からキーワードに決定するので、対象期間より前に記憶された語句は、キーワードの決定に用いない。そのため、キーワード抽出部１２５は、会話の進行に伴って、話題が変化していったとしても、現在話題となっている内容に即したキーワードを抽出することができるという優れた効果を奏する。

（１０−２）画像出力部１２９
画像出力部１２９は、会話補助制御部１２４から表示用データを取得し、取得した表示用データからプロジェクタ用の表示画面を生成する機能を有する。
ここで、表示用データは、一例としてｗｅｂページを構成するＨＴＭＬ形式のファイル、画像データ、テキストデータなどである。画像出力部１２９は、ブラウザ機能を備えており、表示用データを解析して表示画面を生成し、生成した表示画面をプロジェクタ部１１６へ出力する。

（１０−３）会話補助制御部１２４
会話補助制御部１２４は、入力部１１７から会話開始通知及び会話終了通知を受け取る。会話開始通知を取得してから、会話終了通知を取得するまでの間、無音判断部１１１、音声認識部１１２、キーワード抽出部１２５及び画像出力部１２９を制御して、会話補助を実現する機能を有する。

また、会話補助制御部１２４は、信号処理部１０３を介して、検索サイトサーバ装置２５から、検索結果を取得する。この検索結果は、キーワード抽出部１２５による検索依頼に応じて、検索サイトサーバ装置２５が検索を行った結果であり、少なくとも１つのｗｅｂサイトを示すＵＲＬを含んでいる。例えば、○×旅行会社の所有する○×旅行会社サーバ２６のＵＲＬを含む。詳細は、後の検索サイトサーバ装置の章において記載する。

また、会話補助制御部１２４は、取得した検索結果の示すｗｅｂサイトから、表示用データを取得し、取得した表示用データを画像出力部１２９へ出力する。本実施の形態では、検索結果に複数のＵＲＬが含まれている場合、１番目に順位付けされているＵＲＬの示すｗｅｂサイトから前述の表示用データを取得する。
２．検索サイトサーバ装置２５
検索サイトサーバ装置２５は、従来からインターネットで検索サービスを提供している検索サイトのサーバと同様のものであり、携帯通信端末１００からキーワードと検索依頼とを受信する。これらを受信すると、所定の検索アルゴリズムに従って、キーワードに適したｗｅｂサイトを、適合度合いの高い順に検出する。

続いて、検索サイトサーバ装置２５は、検出したｗｅｂサイトを適合度合いの高い順に順位付けし、順位及び各ｗｅｂサイト示すＵＲＬを含む検索結果を生成し、生成した検索結果を携帯通信端末１００へ送信する。
３．動作
以下に、本発明の携帯通信端末１００の動作について、図面を参照しながら説明する。

なお、携帯通信端末１００は、以下に説明する動作以外にも、各種の動作、例えば、通話、音楽再生、写真撮影、ＬＣＤへの画像表示などを行うとしてもよいが、ここでは、本発明に関連する会話補助に関する動作についてのみ説明する。
３．１会話補助の動作
図４は、携帯通信端末１００による会話補助動作を示すフローチャートである。

以下に、図４を用いて、会話補助動作について説明する。
入力部１１７は、利用者によるスタートキーの押下を検出し（ステップＳ１０１）、会話開始通知を制御部１１３へ出力する。
制御部１１３内の会話補助制御部１２４は、会話開始通知を受け取り、各構成要素に対する制御を開始する。

会話補助制御部１２４の指示により、マイク１０７及びエンコーダ／デコーダ１０８は音声の集音を開始する（ステップＳ１０２）。
音声認識部１１２は、集音された音声から、辞書１２３に含まれる語句と一致する語句を抽出する（ステップＳ１０４）。続いて、音声認識部１１２は、時計１０４から時刻を取得し、抽出した語句と時刻とからなる語句データを制御部１１３へ出力する（ステップＳ１０６）。

制御部１１３の会話補助制御部１２４は、音声認識部１１２から取得した語句データを記憶部１１４へ書き込む（ステップＳ１０７）。ここで、ストップキーの押下が検出されると（ステップＳ１０８のＹＥＳ）、会話補助制御部１２４は、会話補助に係る処理を終了する。
ストップキーの押下が検出されなければ（ステップＳ１０８のＮＯ）、ステップＳ１０４へ戻り、ステップＳ１０４〜ステップＳ１０７の処理を繰り返す。

一方、会話補助制御部１２４の指示の下、無音判断部１１１は、タイマ１３１をリセットする（ステップＳ１１１）。無音判断部１１１は、比較器１３０により、集音された音声の音量と、音量閾値「−７０ｄｂ」１２１とを比較する（ステップＳ１１２）。比較の結果、音量＞音量閾値であれば（ステップＳ１１２のＮＯ）、無音判断部１１１は、ステップＳ１１１へ処理を移す。

比較の結果、音量≦音量閾値であれば（ステップＳ１１２のＹＥＳ）、無音判断部１１１は、続いて、タイマ１３１の計測した時間と時間閾値「３０秒」１２２とを比較する（ステップＳ１１３）。
比較の結果、計測した時間＜時間閾値であれば（ステップＳ１１３のＮＯ）、無音判断部１１１は、ステップＳ１１２へ戻り時間の計測を継続する。

比較の結果、計測した時間≧時間閾値であれば（ステップＳ１１３のＹＥＳ）、無音判断部１１１は、無音状態が発生したことを示す無音通知を制御部１１３へ出力する（ステップＳ１１４）。
制御部１１３は、無音通知を取得すると、会話の補助となる情報を取得し、提示する（ステップＳ１１６）。この処理については、後に詳細に説明する。

情報を提示した後、ストップキーの押下が検出されなければ（ステップＳ１１７のＮＯ）、制御部１１３はステップＳ１１１へ処理を移す。
ストップキーの押下が検出されると（ステップＳ１１７のＹＥＳ）、制御部１１３は、会話補助に係る処理を終了する。
３．２情報提示に係る動作
図５は、無音状態が検出された場合に、会話の補助となるような情報を利用者に提示する処理における携帯通信端末１００の動作を示すフローチャートである。

以下に、図５を用いて、情報提示に係る携帯通信端末１００の動作について説明する。なお、これは、図４のステップＳ１１６の詳細である。
キーワード抽出部１２５は、会話補助制御部１２４を介して無音通知を取得する（ステップＳ１２１）。キーワード抽出部１２５は、現在時刻を終端とする対象期間「５分間」に発話された語句を記憶部１１４から読み出す（ステップＳ１２２）。続いて、キーワード抽出部１２５は、読み出した語句について、出現回数を計数し、出現回数の最も多い語句をキーワードとして抽出する（ステップＳ１２３）。

次に、キーワード抽出部１２５は、信号処理部１０３及びインターネット２０を介して、抽出したキーワードを検索サイトサーバ装置２５へ送信し、検索を依頼する（ステップＳ１２４）。
信号処理部１０３は、インターネット２０を介して検索サイトサーバ装置２５から、検索結果を受信し、受信した検索結果を会話補助制御部１２４へ出力する（ステップＳ１２６）。

会話補助制御部１２４は、検索結果を取得し、取得した検索結果に含まれる第１のＵＲＬの示すリンク先（例えば、○×旅行会社サーバ２６）から、表示用データを受信する（ステップＳ１２７）。
次に、会話補助制御部１２４は、受信した表示用データを画像出力部１２９へ出力する（ステップＳ１２９）。

画像出力部１２９は、会話補助制御部１２４から、表示用データを取得し、取得した表示用データを基に、プロジェクタ用の表示画面を生成する。生成した表示画面をプロジェクタ部１１６へ出力する（ステップＳ１３１）。
プロジェクタ部１１６は、画像出力部１２９により生成された表示画面を取得し、取得した画面をスクリーン、壁などに表示する（ステップＳ１３２）。
４．具体例
ここで、図１に示す会議を例にして、携帯通信端末１００の動作を具体的に説明する。

時刻Ｔ１〜時刻Ｔ８において、各利用者が夫々の意見を発言する。例えば、時刻Ｔ１「１３：３０：１５」において、利用者Ｈ２０１は「旅行に行こう！日帰りならＯＫだよね？」と発言している。このとき、携帯通信端末１００のマイク１０７はこの発言による音声を集音し、音声認識部１１２は、集音された音声から語句「旅行」、「日帰り」を抽出する。続いて、音声認識部１１２は、時刻と語句からなる語句データ「Ｔ１（１３：３０：１５）：旅行」、「Ｔ１（１３：３０：１５）：日帰り」を制御部１１３へ出力する。

制御部１１３は、記憶部１１４へ、語句データ「Ｔ１（１３：３０：１５）：旅行」、「Ｔ１（１３：３０：１５）：日帰り」を書き込む。
同様に、携帯通信端末１００は、各時刻における各人の発言から語句を抽出し、記憶部１１４に書き込んでいく。その結果、時刻Ｔ６「１３：３０：１５」において、記憶部１１４には、語句データ「Ｔ１（１３：３０：１５）：旅行」、「Ｔ１（１３：３０：１５）：日帰り」、「Ｔ２（１３：３０：１８）：カニ」、「Ｔ３（１３：３０：２１）：ツアー」、「Ｔ４（１３：３０：２４）：日帰り」、「Ｔ４（１３：３０：２４）：カニ」、「Ｔ５（１３：３０：２６）：カニ」、「Ｔ５（１３：３０：２６）：ツアー」、「Ｔ５（１３：３０：２６）：場所」が記憶されている。

時刻Ｔ６「１３：３０：２９」以降、誰も発言せず、静かな状態（音量が−７０ｄｂ以下の状態）が継続している。このように、静かな状態が３０秒以上継続していると判断すると、無音判断部１１１は、無音通知を制御部１１３へ出力する。
制御部１１３内のキーワード抽出部１２５は、会話補助制御部１２４を介して、無音通知を受け取る。無音通知を受け取ると、現在時刻「Ｔｅ」を取得し、記憶部１１４に記憶されている語句データのうち、時刻「Ｔｅ−５分」を始期、時刻「Ｔｅ」を終期とする期間に含まれる時刻を有する語句データを特定する。

続いて、キーワード抽出部１２５は、特定した語句データに含まれる語句「旅行」、「日帰り」、「カニ」、「ツアー」、「日帰り」、「カニ」、「カニ」、「ツアー」、「場所」を、記憶部１１４から読み出し、各語句の出現回数を計数する。キーワード抽出部１２５は、計数の結果、出現回数の最も多い「カニ」をキーワードとする。
次に、キーワード抽出部１２５は、キーワード「カニ」を送信して、検索サイトサーバ装置２５へ、検索依頼する。

会話補助制御部１２４は、検索依頼に対する検索結果を受信する。会話補助制御部１２４は、１番目に順位付けされている○×旅行会社のサイトを示すＵＲＬを出力して、○×旅行会社サーバ２６へアクセスし、表示用データを受信する。
画像出力部１２９は、ここで取得された表示用データを基に、画面を生成し、生成した画面をプロジェクタ部１１６へ出力する。

プロジェクタ部１１６は、画像出力部１２９から画面を取得し、時刻Ｔ９に取得した画面を壁に表示する。画面１０１は、ここで表示される画面の一例であって、「カニツアー」の宣伝広告についての情報を示している。
５．まとめ
以上説明したように、携帯通信端末１００は、会話の停滞を検出すると、利用者によって何ら入力操作がなされなくても、つまり利用者が特に意識しなくても、それまでの会話を基に、会話の内容に関連する情報を取得・表示し、会話の停滞解消を促す。

さらに、無音判断部１１１は、集音される音声の音量が音量閾値以下となる時間が時間閾値以上であると判断した場合に限り、無音通知を出力し、キーワード抽出部は、無音通知を受け取ると、キーワードの抽出及び検索依頼を行う。そのため、そのため、集音される音声の音量が音量閾値より大きい間や短い無音時間しか生じていない間、つまり、会話が活発にやり取りされている間は、画面表示により、会話を遮ることがない。
６．その他の変形例
なお、本発明を上記の実施の形態１に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
（１）上記の実施の形態１では、携帯通信端末１００は、利用者によるスタートキー及びストップキーの押下により、会話補助の動作を開始及び終了しているが、開始及び終了のトリガは、これに限らない。

例えば、携帯通信端末１００は、スケジュール帳の機能を備えており、利用者は、事前に会議の開始及び終了日時を入力しておく。開始日時になると、スケジュール帳が、会話補助のアプリケーションプログラムを起動し、終了日時になると前記アプリケーションプログラムを終了させるとしてもよい。
（２）上記の実施の形態１では、携帯通信端末１００の周囲に利用者が集まり会議をしている例について、説明してきたが、通話機能を利用して、遠隔地にいる利用者も参加する会議であってもよい。

この場合、遠隔地にいる利用者は、通話機能を備えた通信機器を用いて、会議に参加する。本発明の携帯通信端末１００の音声認識部１１２及び無音判断部１１１は、マイク１０７を介して集音された音声に加えて、信号処理部１０３を介して受信される通話音声も音声認識、無音検出の対象とする。
また、会話が停滞した場合、会話補助制御部１２４は、プロジェクタにより画面を表示すると共に、外部のサイトから受信した表示用データ若しくは表示用データの取得先のサイトを示すＵＲＬを、遠隔地にいる利用者の所持する通信機器へ送信する。

この構成によると、携帯通信端末１００は、当該携帯通信端末１００の周囲にいる利用者に加えて、遠隔地にいる利用者を交えた会話にも利用することができる。
（３）上記の実施の形態１では、携帯通信端末１００は、無音時間が、時間閾値以上継続すると、情報提示に係る動作を開始しているが、この動作のトリガは、これに限るものではない。

その一例として、例えば、無音判断部１１１は、所定の単位期間（例えば３分）毎に、無音時間が時間閾値（例えば「１５秒」）以上になった回数（以下、頻度と呼ぶ）を計数し、計数した頻度が、頻度閾値を超える場合、会話が停滞していることを示す無音信号を出力してもよい。
または、上記の単位期間「３分」のうち、無音時間の累積値の割合が、所定の閾値を越える場合、無音判断部１１１は、会話が停滞していることを示す無音信号を出力するとしてもよい。

ここで、上記の「頻度」とは、時間閾値よりも長い単位期間に、無音時間≧時間閾値となった回数により定まる値である。
このようにすることで、音量が音量閾値以下となる時間が時間閾値以上継続する状態が、頻繁に発生する場合、つまり、会話が完全に止まっているわけではないが、発話が途切れがちで、活発に会話がなされているとは言い難い場合にも、利用者は、何の操作も入力もすることなく、会話に関連する情報を得ることができるという優れた効果を奏する。
（４）上記の実施の形態１では、キーワード抽出部１２５は、読み出した語句のうち、出現回数の最も多い１個の語句をキーワードとして抽出したが、複数の語句をキーワードとしてもよい。例えば、出現回数が所定の閾値を超える語句を、全てキーワードとする。

また、上記の変形例（１）のように、携帯通信端末１００がスケジュール帳の機能を備えている場合、会議の題目、出席者、司会者、資料を記録しておき、音声認識やキーワードの抽出に用いても良い。
例えば、音声認識部１１２が語句を抽出する際、辞書１２３のうち、会議の題目や資料の内容に関連する部分のみを用いて語句の抽出を行う。

また、別の例としては、司会者の音声を予め記憶しておき、司会者の発言した語句と、他の利用者が発言した語句とを区別して記憶しておき、キーワードを決定する際に、各語句に対して、発言者による重み付けを行っても良い。
また、スケジュール帳に記録していない場合であっても、「私が司会者です」のような発言した人物の音声を司会者の音声として記憶し、同様の重み付けを行っても良い。

また、語句及び時刻と共に、その語句が発声されたときの音量を記録しておき、音量による重み付け（つまり、音量が大きいほど、重みを大きくする）を行って、キーワードの選択を行うとしても良い。
（５）上記の実施の形態１では、キーワード抽出部１２５は、現在時刻を終端とする対象期間「５分」の間に抽出された語句の中から、キーワードを選択している。しかし、適当なキーワードが見つからない場合、例えば、いずれの語句も出現回数が非常に少なく、所定の閾値に満たない場合には、対象期間を延長し、再度キーワードの抽出を行うとしても良い。
（６）上記の実施の形態１では、携帯通信端末１００は、インターネットに接続されている検出サイトサーバ装置２５に検索を依頼しているが、検索の方法はこれに限らない。

一例としては、携帯通信端末１００の内部又は外部のデータベースから携帯通信端末１００自身が、キーワードに関連する情報を検索、取得しても良い。
また、別の例としては、記憶部１１４に記憶されている語句を集計し、頻出語句を、現在までの議事録として表示してもよいし、語句のみならず、音声も録音しておき、頻出語句の多く含まれる部分を特定し、その部分を再生しても良い。
（７）上記の実施の形態１では、検索結果に含まれる複数のＵＲＬのうち、１番目のリンク先から取得した表示用データを基に画面を生成し、表示しているが、検索結果に含まれる複数のサイトから得た表示用データを１番目から順に所定時間置きに切り替えて表示してもよい。

利用者は、画面を見ながら、注意を引く情報が表示されると、入力部１１７を操作する。利用者による操作が為されると、携帯通信端末１００は、画面の自動切換えを停止し、以後、利用者の操作に従って動作する（例えば、画面のスクロール、画面中に表示されているリンク先へのアクセスなど）。
図６は、この変形例における携帯通信端末１００の動作を示している。以下、検索結果を順次表示する場合の携帯通信端末１００の動作について、図６を用いて説明する。図６に示す動作は、図５に示すステップＳ１２７〜ステップＳ１３２に代替し得る。

会話補助制御部１２４は、複数のリンク先のＵＲＬを含む検索結果を取得する。検索結果を取得するとｎ＝１、２、３・・・の順に以下の処理を繰り返す。
会話補助制御部１２４は、ｎ番目のリンク先から表示用データを受信する（ステップＳ１４１）。会話補助制御部１２４は、受信した表示用データを画像出力部１２９へ出力する（ステップＳ１４２）。

画像出力部１２９は、表示用データを基に画面を生成しプロジェクタ部１１６へ出力する（ステップＳ１４３）。
プロジェクタ部１１６は、受け取った画面を表示する（ステップＳ１４４）。
ここで、利用者による操作が為されず（ステップＳ１４６のＮＯ）、ステップＳ１１４から所定時間経過していなければ（ステップＳ１４９のＮＯ）、ステップＳ１４６へ戻る。

利用者による操作が為されず（ステップＳ１４６のＮＯ）、ステップＳ１４４から所定時間経過していれば（ステップＳ１４９のＹＥＳ）、会話補助制御部１２４は、ｎ←ｎ＋１として（ステップＳ１５１）、ステップＳ１４１へ戻り、次のリンク先からの情報表示を繰り返す。
ステップＳ１４６において、利用者により操作が為されると（ステップＳ１４６のＹＥＳ）、制御部１１３は、上記の繰返しを中止し、利用者の操作に従った処理を行う（ステップＳ１４７）。

携帯通信端末１００が、このような機能を備えることで、利用者は、検索結果に含まれる複数のサイトから得た情報を、何の操作も行うことなく、順次、閲覧することができるという優れた効果を奏する。
（８）上記の携帯通信端末１００は、内部にプロジェクタ部１１６を備えているが、これは必須ではない。

プロジェクタ部を備えていない構成の場合、携帯通信端末とプロジェクタ装置とを接続し、画像出力部１２９は、プロジェクタ装置へ、生成した表示画面を出力するとしてもよい。
また、画像出力部１２９は、ＬＣＤ１０９に画面を表示させるとしてもよい。
（９）また、携帯通信端末１００は、検索結果により示されるサイトから取得したデータに基づく画像を、会話の補助となる情報として出力する構成であるが、これに限るものではない。

例えば、検索結果に含まれる複数のｗｅｂサイトの名称やＵＲＬを一覧表示してもよい。
また、検索結果に示されるｗｅｂサイトから取得した音声データを基に生成した音声を出力する構成であっても良い。
また、プロジェクタによる表示に代えて、各利用者が手元に所持する端末機器、例えば、携帯電話、ノートパソコン、電子手帳などへ、表示用画像データ、若しくは、表示用画像データの取得先であるｗｅｂサイトを示すＵＲＬを送信するとしてもよい。この場合、各利用者の端末機器は、受信した表示用画像データ若しくはＵＲＬを利用するためのアプリケーションを起動している。
（１０）上記の実施の形態１では、携帯通信端末１００は、無音時間が時間閾値を越えて継続すると、必ず、キーワードの抽出及び検索結果を基に得られる画面の表示を行う。

しかし、無音状態の継続を検出してから、画面が表示されるまでには、ある程度時間を要する。この間に、会話が再開した場合、以下のような処理を行っても良い。
この場合、無音判断部１１１は、無音時間が時間閾値を超えた時点から、音量閾値以上の音量を検出するまで、無音通知を出力し続ける。
画面が表示される前に会話が再開されても（つまり、無音通知が途絶えても）、制御部１１３は、キーワードの抽出、検索サイトへの検索依頼及び検索結果の受信までは行う。

この処理と並行して、制御部１１３は、会話の継続時間を計測する。具体的には、無音判断部１１１からの無音通知が途絶えてから、再度、無音通知を取得するまでの時間を計測する。
再度、無音通知を取得すると、制御部１１３は、計測した会話の継続時間と所定の閾値とを比較する。継続時間が閾値未満であれば、取得しておいた検索結果を基に、表示用データの受信、及び、画面表示の制御を行う。

継続時間が閾値以上であれば、制御部１１３は、取得しておいた検索結果を破棄し、新たにキーワードを抽出し、抽出したキーワードに基づく検索結果を取得する。続いて、制御部１１３は、新たに取得した検索結果を基に、表示用データの受信、及び、画面表示の制御を行う。
（１１）上記の実施の形態１とは異なり、全ての会議参加者が、それぞれ別の場所におり、通信機器を用いた音声会議を行っているとしてもよい。

この場合、各参加者の通信機器のうち何れか一つが、実施の形態１のような会話補助の機能を備えた携帯通信端末である。携帯通信端末は、自身の利用者の音声を、マイクを介して取得し、他の会議参加者の発する音声を通信機能により取得する。
また、本変形例の携帯通信端末は、プロジェクタにより画面を表示する代わりに、表示用データ、若しくは、表示用データの取得先であるサイトのＵＲＬを、他の通信機器へ送信する。
（１２）上記の実施の形態では、キーワード抽出部１２５は、無音通知を取得してから、キーワードの抽出を開始している。しかし、無音通知の有無とは関係なく定期的にキーワードの抽出を行っても良い。

この場合、例えば５分おきに、現在時刻を周期とする対象期間に集音された語句の中からキーワードを抽出し、検索依頼を送信する。
会話補助制御部１２４は、この検索依頼に対する検索結果を受信し、１番目のｗｅｂサイトから表示用データを取得し、一時的に記憶する。
続いて、会話補助制御部１２４は、無音判断部１１１から無音通知を受け取る。無音通知を受け取ると、記憶している表示用データを画像出力部１２９へ出力する。

無音通知を受け取る前に、次の検索結果を受信した場合、会話補助制御部１２４は、記憶している表示用データを削除し、新たに受信した検索結果の示すｗｅｂサイトから新たに表示用データを取得する。
このように、予め表示用データを取得しておくことで、携帯通信端末１００は、無音期間が時間閾値を超えると、すぐに、画面を表示し、利用者に情報提供することができる。
（１３）また、上記の実施の形態１及び変形例では、本発明の一つの実施形態として携帯通信端末について、説明してきたが、必ずしも携帯型機器に限るものではない。

例えば、パソコン、テレビ、据え置き型のプロジェクタ、会話補助機能のみを備えた専用機器などであってもよい。さらに、その他の電気機器であってもよい。
（１４）ここで、課題を解決するための手段の項目において述べた「関連情報」は、上記の実施の形態及び変形例における、検索サイトサーバ装置２５により生成される１以上のＵＲＬを含む「検索結果」、携帯通信端末１００が前記ＵＲＬを基にインターネット上の各サイトから取得する「表示用データ」や「音声データ」、表示用データから生成される「画面」及び音声データから生成される「音声」を含む。さらに、携帯通信端末１００の内部又は外部のデータベースから取得する情報も含む。
（１５）上記の各装置を構成する構成要素の一部又は全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）やＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
更には、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応などが可能性として有り得る。
（１６）本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラム又は前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ―ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリなど、に記録したものとしてもよい。また、これらの記録媒体に記録されている前記コンピュータプログラム又は前記デジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリとを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムに従って動作するとしてもよい。

また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
（１７）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

本発明は、会話の補助となる情報を提供する電気機器を製造及び販売する産業、会話の補助となる情報を提供する手順を含むプログラムを製作及び販売する産業において、経営的、反復、継続的に利用することができる。

本発明の携帯通信端末１００の使用例を示す図である。携帯通信端末１００の物理的構成を示すブロック図である。制御部１１３の機能的構成を示す機能ブロック図である。携帯通信端末１００による会話補助の動作を示すフローチャートである。携帯通信端末１００による情報提示に係る動作を示すフローチャートである。携帯通信端末１００による情報提示の変形例を示すフローチャートである。

符号の説明

１５基地局
２０インターネット
２５検索サイトサーバ装置
２６旅行会社サーバ
１００携帯通信端末
１０２アンテナ
１０３信号処理部
１０４時計
１０６スピーカー
１０７マイク
１０８エンコーダ／デコーダ
１０９ＬＣＤ
１１１無音判断部
１１２音声認識部
１１３制御部
１１４記憶部
１１６プロジェクタ部
１１７入力部
１２４会話補助制御部
１２５キーワード抽出部
１２９画像出力部

Claims

音声を集音する集音手段と、
集音された音声から、キーワードを抽出する抽出手段と、
集音される音声の音量が音量閾値以下となる時間を計測し、計測した時間が時間閾値以上であるか否かを判断する判断手段と、
抽出されたキーワードに関連する関連情報を取得し、判断結果を基に、取得した関連情報を出力する出力手段
とを備えることを特徴とする情報端末。
前記判断手段によって肯定的な判断がなされた場合、前記出力手段は、前記出力を行う
ことを特徴とする請求項１記載の情報端末。
抽出手段は、
音声から、所定語句群の何れかと一致する語句を特定する音声認識部と、
特定された語句を記憶する記憶部と、
前記判断手段によって肯定的な判断がなされた場合、前記判断以前の所定期間に、前記記憶部に記憶された語句のうち、１以上の語句を前記キーワードに決定する決定部とを含む
ことを特徴とする請求項２に記載の情報端末。
前記集音手段は、
周囲の音声を検知するマイクと、
通信回線を介して音声を受信する通信部とを含み、
前記抽出手段は、マイクにより検知された音声及び通信部の受信した音声からキーワードを抽出する
ことを特徴とする請求項２に記載の情報端末。
前記出力手段は、投影機能を有するプロジェクタ部を含んで構成され、前記関連情報を前記プロジェクタ部により表示することで、前記出力を行う
ことを特徴とする請求項２記載の情報端末。
当該情報端末は、投影機能を備える外部機器と接続可能であって、
前記出力手段は、前記関連情報を前記外部機器へ出力する
ことを特徴とする請求項２記載の情報端末。
前記出力手段は、前記関連情報として、所定の順に並べられた複数の情報を、取得し、前記複数の情報を前記所定の順に出力する
ことを特徴とする請求項２記載の情報端末。
前記判断手段は、音量が前記音量閾値以下となる度に、前記計測及び前記判断を繰返し、
前記出力手段は、前記判断手段により肯定的な判断のなされる頻度を算出し、算出した頻度と頻度閾値を比較し、前記頻度が前記頻度閾値以上である場合に限り、前記出力を行う
ことを特徴とする請求項１記載の情報端末。
情報端末において用いられる会話補助プログラムであって、
音声を逐次、集音する集音ステップと、
集音された音声から、キーワードを抽出する抽出ステップと、
集音される音声の音量が音量閾値以下となる時間を計測し、計測した時間が時間閾値以上であるか否かを判断する判断ステップと、
抽出されたキーワードに関連する関連情報を取得し、判断結果を基に、取得した関連情報を出力する出力ステップ
とを含むことを特徴とする会話補助プログラム。