JP5882972B2

JP5882972B2 - 情報処理装置、及びプログラム

Info

Publication number: JP5882972B2
Application number: JP2013213688A
Authority: JP
Inventors: 玲二藤川; 雅彦原田
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2013-10-11
Filing date: 2013-10-11
Publication date: 2016-03-09
Anticipated expiration: 2033-10-11
Also published as: JP2015076039A

Description

本発明は、情報処理装置、及びプログラムに関する。

近年、テレビ受像器やパーソナルコンピュータ等の電子機器に対するユーザ・コマンドの入力を支援する対話型操作支援システムが開発されている（例えば、特許文献１参照）。

特許文献１に記載の発明は、「対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体」に関する発明であり、具体的には、「音声合成やアニメーションによるリアクションを行なう擬人化されたアシスタントと呼ばれるキャラクタのアニメーションをユーザ・インターフェースとすることにより、ユーザに対して親しみを持たせると同時に複雑な命令への対応やサービスへの入り口を提供することができる。また、自然言語に近い感じの命令体系を備えているので、ユーザは、通常の会話と同じ感覚で機器の操作を容易に行なうことができる」ものである。

特開２００２−４１２７６号公報

しかしながら、上述した特許文献１に記載の技術では、質問に対する回答は得られても一つの問いに対して一つの回答しか得られないため、回答に関連した情報を得るためには再度質問しなければならなかったり、回答が不十分な場合や回答不能な場合に回答を得るための連絡先を質問したりしなければならない煩わしさがあった。
そこで、本発明の目的は、ユーザへの問いかけに的確に反応する情報処理方法、情報処理装置、及びプログラムを提供することにある。

上記課題を解決するため、請求項１に記載の発明は、入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して前記検索内容による検索を実行する情報処理装置であって、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する音声解析手段と、前記テキスト情報に第１のキーワードが含まれるか否かを判別する判別手段と、前記判別手段により前記第１のキーワードが含まれると判別したときは、前記検索内容の特定および検索を実行することなく、前記第１のキーワードに対応して予め記憶された処理、前記判別手段により前記第１のキーワードが含まれないと判別したときは前記第１のキーワードと、前記予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第２のキーワードとを検索内容として検索を実行する実行手段と、を備えた情報処理装置であって、得られた回答をテキストデータに変換し、前記テキストデータを音声出力する音声合成手段と、情報処理装置を擬人化したアバタ―及び前記アバタ―の発話内容としての検索結果を文字で表示した吹き出しを含む画像及び文字を表示する表示手段と、を備えたことを特徴とする。

本発明によれば、ユーザへの問いかけに的確に反応する情報処理装置、及びプログラムの提供を実現できる。

一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。図１に示したパーソナルコンピュータの主要部のブロック図の一例である。（ａ）は、問いかけに対する回答のフローチャートの一例であり、（ｂ）は、問いかけに対する回答のフローチャートの他の一例である。（ａ）は、ソファーの上にパーソナルコンピュータ１００が載置されている状態を示し、（ｂ）は、（ａ）に示したパーソナルコンピュータ１００の音声認識処理動作を開始した状態を示す画面の一例である。ユーザがドレッサーでメークしながら、ソファー上のパーソナルコンピュータ１００に問いかけている状態を示す図である。図１に示したパーソナルコンピュータ１００による応答の一例を示す説明図である。

次に実施の形態について述べる。
＜構成＞
図１は、一実施形態に係る情報処理装置としてのパーソナルコンピュータのブロック図である。
同図に示すパーソナルコンピュータ（以下、ＰＣ）１００は、マイクロフォン１０１、増幅回路１０２、１０４、スピーカ１０３、表示装置１０５、キーボード１０６、マウス１０７、光学読取装置１０８、制御手段１０９、記憶手段としてのＨＤＤ(Hard Disk Drive)１１０、ネットワーク接続部１１１、Ｉ／Ｏ(Input/Output)１１２、及びバスライン１１３を有する。

マイクロフォン１０１は、ユーザの音声を電気信号に変換する機能を有する。マイクロフォン１０１としては、例えばコンデンサマイクロフォンが挙げられるが、ダイナミックマイクロフォンでもよい。
増幅回路１０２は、マイクロフォン１０１からの電気信号を増幅する回路である。
スピーカ１０３は、電気信号を音声に変換する機能を有する。スピーカ１０３は、主にＰＣを擬人化したアバターの発話内容をユーザへ伝達する機能を有する。
増幅回路１０４は、音声信号を、スピーカ１０３を駆動させるレベルまで増幅する回路である。
表示装置１０５は、アバターやアバターの発話内容を文字で表示した吹き出しを含む画像や文字等を表示する機能を有する。表示装置１０５としては、例えば、液晶表示素子が挙げられる。表示装置１０５には、所定のコマンドの実行結果が画面上に表示される。
キーボード１０６は、文字、数字、符号を入力する入力装置である。
マウス１０７は、入力装置の一種であり、机上を移動させることで表示装置１０５のカーソルを移動させる等の機能を有する。
光学読取装置１０８は、ＣＤ(Compact Disk)、ＤＶＤ(Digital Versatile Disc)やＣＤ−Ｒ(Compact Disc-Recordable)等の光学媒体を読み取る機能を有する。

制御手段１０９は、ＰＣ１００を統括制御機能、及び音声処理機能を有する素子であり、例えばＣＰＵ(Central Processing Unit)が挙げられる。音声処理機能とは、主に入力した音声をテキストデータとして出力し、解析し、合成する機能である。制御手段１０９は、それぞれソフトウェアで構成される入力制御手段１０９ａ、音声認識手段１０９ｂ、音声解析手段１０９ｃ、検索手段１０９ｄ、及び音声合成手段１０９ｅを有する。

入力制御手段１０９ａは、マイクロフォン１０１に入力された音声が変換された信号を解析して得られたコマンドに基づいて処理させる機能の他、キーボード１０６からのキー入力、及びマウス１０７からのクリックやドラッグ等による信号を文字表示、数字表示、符号表示、カーソル移動、コマンド等に変換する機能を有する。
音声認識手段１０９ｂは、後述するクライアント型音声認識部２０３である。
音声解析手段１０９ｃは、後述する音声信号解釈部２０２であり、テキストデータを解析する機能を有する。音声解析手段１０９ｃは、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する。例えば、テキストデータ中に特別なキーワードのうちの第１のキーワードとしての「パソコンが壊れた」、「修理したい」、「電話サポート先は？」等の有無を調べる。これらは、特別な応答として、問いかけに対し、最適な回答とそれに関連する情報を提示するためのものである。第１のキーワードは予めＨＤＤ１１０に記憶された処理内容に対応したキーワードであり、第２のキーワードは第１のキーワード以外のキーワードであり、ＨＤＤ１１０には記憶されていない。尚、問いかけに対する回答の組み合わせは、予め作成される。例えば、ＷｅｂサイトにあるＱ＆Ａを参考にして良くある問い合わせを元に作成される。

検索手段１０９ｄは、ネットワーク２０７を介してインターネット検索する手段である。検索手段１０９ｄは、ユーザから検索の指示があると、予め設定されたブラウザでネットワーク２０７に接続し、予め設定されたインターネット検索サービス会社に接続し、キーワード検索する機能を有する。
音声合成手段１０９ｅは、後述するクライアント型音声合成部２１０であり、人間の音声を人工的に作り出す機能を有する。音声はアバターの年齢性別に対応した音質が設定されている。音声合成手段１０９ｅの出力は、バスライン１１３、及び増幅回路１０４を経て出力手段としてのスピーカ１０３から発音される。

ＨＤＤ１１０は、記憶装置の一種であり、ＲＯＭ(Read Only Memory)エリア、及びＲＡＭ(Random Access Memory)エリアを有する。ＲＯＭエリアは制御プログラムを格納するエリアであり、ＲＡＭエリアはメモリとして用いられるエリアである。

ネットワーク接続部１１１は、ネットワーク２０７を介して外部のサーバに接続する機能を有する公知の装置である。無線もしくは有線のいずれの手段を用いてもよい。
Ｉ／Ｏ１１２は、外部の電子機器、例えばＵＳＢ(Universal Serial Bus line)フラッシュメモリやプリンタを接続する機能を有する入出力装置である。
尚、ＰＣ１００は、入力手段としてタッチパネルを有していてもよい。

図２は、図１に示したパーソナルコンピュータの主要部のブロック図の一例である。
図２において、本発明の実施形態におけるＰＣ１００は、マイクロフォン１０１から入力されたユーザの音声が音声データ（電気信号）に変換されて、当該音声データが音声信号解釈部２０２によって解釈され、その結果がクライアント型音声認識部２０３において認識される。クライアント型音声認識部２０３は、認識した音声データをクライアントアプリケーション部２０４に渡す。

クライアントアプリケーション部２０４は、ユーザからの問い合わせに対する回答が、オフライン状態にあるローカルコンテンツ部２０８に格納されているか否かを確認し、ローカルコンテンツ部２０８に格納されている場合は、当該ユーザからの問い合わせに対する回答を、後述するテキスト読上部２０９、クライアント型音声合成部２１０を経由して、スピーカ１０３から音声出力する。

ユーザからの問い合わせに対する回答が、ローカルコンテンツ部２０８に格納されていない場合は、ＰＣ１００単独で回答を持ち合わせていないことになるので、インターネット等のネットワーク網２０７に接続されるネットワーク接続部２０６を介して、インターネット上の検索エンジン等を用いてユーザからの問い合わせに対する回答を検索し、得られた検索結果を、テキスト読上部２０９、クライアント型音声合成部２１０を経由して、スピーカ１０３から音声出力する。

クライアントアプリケーション部２０４は、ローカルコンテンツ部２０８、又はネットワーク網２０７から得られた回答をテキスト（文字）データに変換し、テキスト読上部２０９に渡す。テキスト読上部２０９は、テキストデータを読み上げ、クライアント型音声合成部２１０に渡す。クライアント型音声合成部２１０は、音声データを人間が認識可能な音声データに合成しスピーカ１０３に渡す。スピーカ１０３は、音声データ（電気信号）を音声に変換する。また、スピーカ１０３から音声を発するのに合わせて、表示装置１０５に当該音声に関連する詳細な情報を表示する。

＜動作＞
次に図１に示したＰＣ１００の動作について図面を参照して説明する。
図３（ａ）は、問いかけに対する回答のフローチャートの一例であり、（ｂ）は、問いかけに対する回答のフローチャートの他の一例である。図４（ａ）は、ソファーの上にＰＣ１００が載置されている状態を示し、図４（ｂ）は、図４（ａ）に示したＰＣ１００の音声認識処理動作を開始した状態を示す画面の一例である。図５は、ユーザがドレッサーでメークしながら、ソファー上のＰＣ１００に問いかけている状態を示す図である。図６は、図１に示したＰＣ１００による応答の一例を示す説明図である。

図３（ａ）において、動作の主体は制御手段１０９である。
ユーザ２００の音声による問いかけがあると（ステップＳ１）、問いかけの文章中に特定キーワードがあるか否かを判断する。特定キーワードとしては第１のキーワードと第２のキーワードとがある。第１のキーワードは予め記憶された処理内容に対応したキーワードであり、第２のキーワードは予め記憶された処理内容に対応していないキーワードである（ステップＳ２）。
問いかけの文章中に特定のキーワードとしての第１のキーワードがある場合（ステップＳ２／Ｙｅｓ）、ＨＤＤ１１０に記憶された処理内容に対応した特定の応答を行い（ステップＳ３）、記憶された処理内容に基づいて返答して終了する（ステップＳ４）。
問いかけの文章中に特定のキーワードとしての第１のキーワードがない場合、すなわち第２のキーワードしかない場合（ステップＳ２／Ｎｏ）、検索手段１０９ｄによりインターネットから情報を取得し（ステップＳ５）、取得した情報に基づいて返答して終了する（ステップＳ４）。

すなわち、図４（ａ）に示すソファー上のＰＣ１００のモニタ１００ａ上のタッチパネルをユーザ２００が操作して音声認識処理を起動させると、図４（ｂ）に示すようにモニタ１００ａにウィンドウ４０１が表示される。ウィンドウ４０１にはアバター４０２と、アバター４０２の吹き出し４０３とが含まれる。
ＰＣ１００の音声認識処理の起動時には例えば、昼間なら「こんにちは！」との音声３０１がスピーカ１０３から発音されるが、本発明はこれに限定されるものではなく、時間や曜日でいろいろな挨拶をすることも可能である。
ユーザ２００がＰＣ１００の音声認識処理を起動させた後、例えば図５に示すようなドレッサーのチェストに座ってメークを行いながら、ＰＣ１００に特定キーワード（第１のキーワード）としてのウェークアップキーワードである「シェリー」と呼ぶと、ＰＣ１００は、判別手段としての制御手段が判別し、問いかけに対する応答動作を開始し、例えば「お呼びでしょうか？」と返答する。

図６に示すようにユーザ２００が「パソコンの使い方教えて」３０２と問いかけると、その問いかけには第１のキーワードとしての「パソコンの使い方」が含まれるので、ＰＣ１００から「基本的な操作なら、「パソコンのいろは」はどうでしょうか？１２１コンタクトセンターで使い方相談もできますよ。」３０３と返答する。
これに対して、ユーザ２００が「コンタクトセンターの電話番号を教えて」３０４と問いかけると、その問いかけには第１のキーワードとしての「コンタクトセンター」が含まれており、かつ「コンタクトセンター」に対する処理内容としては「電話番号」に加え「受付時間が平日の午前９時から午後７時であることを伝えること」が含まれるので、ＰＣ１００は「フリーコール０１２０−１２３−４５６７です。受付時間は、平日の午前９時から午後７時です。」３０５と返答する。
この３０５の返答は、単にコンタクトセンターの電話番号だけでなく、関連する情報として受付時間まで返答することに特徴がある。
このように、ＰＣ１００はユーザへの問いかけに的確に反応することができる。
尚、ユーザ２００からの問いかけに第１のキーワードがなく、第２のキーワードしか含まれていない場合は、インターネットから情報が取得され、それに基づいて変動するようになっている。

一方、図３（ｂ）において、動作の主体は制御手段１０９であるが、図３（ａ）に示したフローチャートがテキスト情報に第１のキーワードが含まれるときは、検索内容の特定および検索を実行することなく、第１のキーワードに対応して予め記憶された処理を実行するのに対し、図３（ｂ）に示したフローチャートは、第１のキーワードと、予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第２のキーワードとを検索内容として検索を実行するものである。
所定時間内とは、ユーザが問いかけた話の文脈を解析できる程度の時間、例えば数秒程度であり、数時間、数日は含まない。
図３（ｂ）において、ステップＳ１１〜Ｓ１５はステップＳ１〜Ｓ４と同様のため、説明を省略する。
ステップＳ１５の返答後所定時間経過したか否かを判断し（ステップＳ１６）、所定時間経過した場合には終了し（ステップＳ１６／Ｙｅｓ）、所定時間経過していない場合（ステップＳ１６／Ｎｏ）、ユーザからさらなる問いかけがあると（ステップＳ１７）、問いかけの文章中に特定のキーワードまたは他の特定のキーワード、すなわち、第１のキーワードまたは第２のキーワードがあるか否かを判断する（ステップＳ１８）。
問いかけの文章中に特定のキーワードとしての第１のキーワードまたは他の特定のキーワードとしての第２のキーワードがある場合（ステップＳ１８／Ｙｅｓ）、ＨＤＤ１１０に記憶された処理内容に対応した特定の応答を行い（ステップＳ１９）、記憶された処理内容に基づいて返答し（ステップＳ２１）、ステップＳ１６に戻る。
問いかけの文章中に特定のキーワードとしての第１のキーワードまたは他の特定のキーワードとしての第２のキーワードがない場合（ステップＳ１８／Ｎｏ）、検索手段１０９ｄによりインターネットから情報を取得し（ステップＳ２０）、取得した情報に基づいて返答し（ステップＳ２１）、ステップＳ１６に戻る。
具体的には、図６において、ユーザが「パソコンの使い方を教えて」と言うところを、例えば「パソコンの使い方」と言いかけて、「コンタクトセンターの電話番号を教えて」と言い直した場合、第１のキーワード「パソコン」の直後に第２のキーワード「コンタクトセンター」があるので、ＰＣは「コンタクトセンター」が「パソコンのコンタクトセンター」であるとして検索し、電話番号や受付時間を検索する場合が挙げられる。この場合、ユーザが「パソコン」について問いかけた後、１日後に「コンタクトセンター」について問いかけてもＰＣは「パソコンのコンタクトセンター」とは認識せずに、「何のコンタクトセンターですか？」とユーザに聞き返すことになる。

＜プログラム＞
以上で説明した本発明に係る情報処理装置は、コンピュータで処理を実行させるプログラムによって実現されている。コンピュータとしては、例えばパーソナルコンピュータが挙げられるが、本発明はこれに限定されるものではない。よって、一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。

例えば、
入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して検索内容による検索を実行する情報処理装置のコンピュータに、
音声解析手段が、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する手順と、
判別手段が、テキスト情報に第１のキーワードが含まれるか否かを判別する手順と、
実行手段が、判別手段により第１のキーワードが含まれると判別したときは、検索内容の特定および検索を実行することなく、第１のキーワードに対応して予め記憶された処理、判別手段により第１のキーワードが含まれないと判別したときは第１のキーワードと、予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第２のキーワードとを検索内容として検索を実行する手順と
を実行させるためのプログラムが挙げられる。

これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる情報処理装置を実現することができる。
このようなプログラムは、コンピュータに読み取り可能な記憶媒体に記憶されていてもよい。

＜記憶媒体＞
ここで、記憶媒体としては、例えばＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ等のコンピュータで読み取り可能な記憶媒体、フラッシュメモリ、ＲＡＭ、ＲＯＭ、ＦｅＲＡＭ等の半導体メモリやＨＤＤが挙げられる。

フレキシブルディスクは、Flexible Disk：ＦＤを意味する。ＣＤ−Ｒは、CD Recordableの略である。ＲＡＭは、Random-Access Memoryの略である。ＲＯＭは、Read-Only Memoryの略である。ＦｅＲＡＭは、Ferroelectric RAMの略で、強誘電体メモリを意味する。ＨＤＤは、Hard Disc Driveの略である。

以上において、本発明によれば、入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して検索内容による検索を実行する情報処理装置であって、テキスト情報に第１のキーワードが含まれるか否かを判別する判別手段と、判別手段により第１のキーワードが含まれると判別したときは、検索内容の特定および検索を実行することなく、第１のキーワードに対応して予め記憶された処理を実行する実行手段と、を備えたことにより、ユーザへの問いかけに的確に反応する情報処理方法、情報処理装置、及びプログラムの提供を実現できる。

尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。

１００パーソナルコンピュータ（ＰＣ、情報処理装置）
１００ａモニタ
１０１マイクロフォン
１０２、１０４増幅回路
１０３スピーカ
１０５表示装置
１０６キーボード
１０７マウス
１０８光学読取装置
１０９制御手段
１０９ａ入力制御手段
１０９ｂ音声認識手段
１０９ｃ音声解析手段
１０９ｄ検索手段
１０９ｅ音声合成手段
１１０ＨＤＤ
１１１ネットワーク接続部
１１２Ｉ／Ｏ
１１３バスライン
２００ユーザ
２０２音声信号解釈部
２０３クライアント型音声認識部
２０４クライアントアプリケーション部
２０９テキスト読上部
２１０クライアント型音声合成部
４０１ウィンドウ
４０２アバター
４０３吹き出し

Claims

入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して前記検索内容による検索を実行する情報処理装置であって、
ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する音声解析手段と、
前記テキスト情報に第１のキーワードが含まれるか否かを判別する判別手段と、
前記判別手段により前記第１のキーワードが含まれると判別したときは、前記検索内容の特定および検索を実行することなく、前記第１のキーワードに対応して予め記憶された処理、前記判別手段により前記第１のキーワードが含まれないと判別したときは前記第１のキーワードと、前記予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第２のキーワードとを検索内容として検索を実行する実行手段と、
を備えた情報処理装置であって、
得られた回答をテキストデータに変換し、前記テキストデータを音声出力する音声合成手段と、
情報処理装置を擬人化したアバタ―及び前記アバタ―の発話内容としての検索結果を文字で表示した吹き出しを含む画像及び文字を表示する表示手段と、
を備えたことを特徴とする情報処理装置。
入力された音声情報から認識されたテキスト情報に基づいて検索内容を特定し、ネットワークを介して前記検索内容による検索を実行する情報処理装置のコンピュータに、
音声解析手段が、ユーザから音声による問いかけがあると、その問いかけに関するテキストデータを解析する手順と、
判別手段が、前記テキスト情報に第１のキーワードが含まれるか否かを判別する手順と、
実行手段が、前記判別手段により前記第１のキーワードが含まれると判別したときは、前記検索内容の特定および検索を実行することなく、前記第１のキーワードに対応して予め記憶された処理、前記判別手段により前記第１のキーワードが含まれないと判別したときは前記第１のキーワードと、前記予め記憶された処理を実行した後所定時間内に入力された新たな音声情報から認識される第２のキーワードとを検索内容として検索を実行する手順と
を実行させるためのプログラム。