JP2016024378A

JP2016024378A - 情報処理装置、その制御方法及びプログラム

Info

Publication number: JP2016024378A
Application number: JP2014149181A
Authority: JP
Inventors: 玲二藤川; Reiji Fujikawa; 雅彦原田; Masahiko Harada
Original assignee: NEC Personal Computers Ltd
Current assignee: NEC Personal Computers Ltd
Priority date: 2014-07-22
Filing date: 2014-07-22
Publication date: 2016-02-08

Abstract

【課題】音声認識を行う情報処理装置において複雑な処理の実行を可能にする。
【解決手段】音声ストリームに基づいて、音声認識部１０４により得られた音素の並びの中で、音素記憶部１０８に記憶されている第１キーワードに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、第１キーワードに一致する音素の並びが存在した場合であって、当該音素の並び以降に第２キーワードと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、実行部１０９が実行する処理の内容とする。実行部１０８は、その処理の内容を実行する際、第２キーワード前の言葉を処理の引数とする。
【選択図】図３

Description

本発明は、情報処理装置、その制御方法及びプログラムに関し、特に、音声認識を行うものに関する。

電子計算機と人間との間のインターフェース（以下、マン・マシン・インターフェース）としては、従来さまざまなものや方式が考案されている。しかしながら、人間の操作や指令（コマンド）を計算機に入力するデバイスに限って言えば、数十年来、キーボードとマウスがデファクトスタンダードであり続けている。特に、パーソナルコンピュータと呼ばれる製品形態の世界ではそうである。このような現状に対し、音声を用いて人間の操作や指令をコンピュータに入力する技術も従来、種々のものが考案されている。

音声認識技術をコンピュータの操作に利用する技術としては、例えば、特許文献１ないし５などがある。特許文献１では、録画装置がテレビ番組録画などのコマンド実行を行うために音声認識を利用している。特許文献２では、カーナビゲーションシステムが音声認識を利用する対話型マン・マシン・インターフェースを提供している。特許文献３では、テレビ受像機などの家電装置や情報機器が音声認識を利用してユーザが通常の会話と同じ感覚で機器を操作できるようにすることを目指したマン・マシン・インターフェースを提供している。

特許文献４は、音声認識したコマンド（指令）を正しく解釈して選択したアプリケーション（例えば、電話ダイヤラ）にコマンドを実行させることについて記載がある。アプリケーションとしては、電子メールアプリケーションやテキストメッセージングアプリケーションがあることが記載されている。特許文献５には、入力された音声をメモリに格納されている音声パターンと照らし合わせて解読し、解読した所定の音声と関連づけて記憶されている機能を実行することが記載されている。

特開平０４−３３８８１７号公報特開２００１−０３４２９２号公報特開２００２−０４１２７６号公報特開２０１３−０７３２４０号公報特開２００８−０５３９３７号公報

しかしながら、上述のような従来技術においては、音声を認識させて単純な操作や指令を実行させることはできても、複雑な処理を実行させることができないという問題点があった。

複雑な処理を実行させるために情報を電子計算機に入力する必要がある。電子機器における無線通信などでは、信号を変調させて信号に情報を搬送させることが通常行われている。これに対して音声信号は、口や唇などの人間の調音器官により生成される音響信号である。変調させることができないので、たとえ音声認識技術を用いてコンピュータに音声の意味を認識させても、通常の通信において用いられる信号ほどには多くの情報をコンピュータに認識させることができない。

また、複雑な処理を実行させるためには電子計算機に伝えるべき情報のデータの構造がある程度複雑にならざるを得ないが、音声認識では複雑なデータ構造を正確に理解することが難しい。

例えば、人間がコンピュータを使って誰かに電子メールを出すことを考えた場合、従来であれば、キーボードを用いて用件を入力し、宛先を入力して送信するが、音声認識型コンピュータであれば、「宛先ＡにＢという内容でメールを送信して」というような言葉をコンピュータに投げかける。この音声信号を受信したコンピュータは、この言葉に、電子メールアプリケーションを立ち上げ、新規メールを作成し、送信するというコマンドが含意されていることを理解しなければならない。と同時に、この言葉の中におけるコマンドではない「宛先Ａ」と「内容Ｂ」というデータを正しくデータとして取り扱い、コマンドとして取り扱ってはならない。しかしながら、コマンドというメタデータも、内容や宛先といったデータも、音声信号という一つのレイヤー上の信号としてコンピュータに受信される。別々のレイヤー上の信号としてはコンピュータに入力されない。

この点に関し、従来技術は、コンピュータに入力されてくる音声のモデルが単純で、音声がそのままコマンドとして取り扱えるものが多かった（例えば、上掲の特許文献１〜５）。しかしながら、入力音声モデルが複雑化し、音声内のデータを適切に扱えるようにするためには、上記問題点を解決する必要がある。

本発明は、上記実情に鑑みてなされたものであり、音声認識を行う情報処理装置において複雑な処理の実行を可能にすることを目的とする。

上記目的を達成するために本発明は、第１の態様として、あらかじめ複数の音素と、第１の所定の音素の並びと、第２の所定の音素の並びと、を記憶する音素記憶手段と、音声ストリームから、前記音素記憶手段に記憶されている複数の音素との比較により音素を抽出し、前記音声ストリームを音素の並びにする音声認識手段と、前記音声認識手段により得られた音素の並びを形態素毎に分割する形態素分析手段と、形態素毎に分割された音素の並びに基づいて文脈を解析する文脈解析手段と、文脈が解析された音素の並びに基づいて処理を実行する実行手段と、を有し、前記形態素分析手段は、前記音声認識手段により得られた音素の並びの中で、前記音素記憶手段に記憶されている前記第１の所定の音素の並びに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、前記第１の所定の音素の並びに一致する音素の並びが存在した場合であって、当該音素の並び以降に前記第２の所定の音素の並びと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、前記実行手段が実行する処理の内容として、前記実行手段に渡し、前記実行手段は、前記形態素分析手段から渡された前記処理の内容を、前記文脈が解析された音素の並びを引数とする指令として、実行することを特徴とする、情報処理装置を提供する。

本発明によれば、音声認識を行う情報処理装置において複雑な処理の実行を可能にすることが可能となる。

本発明による実施形態のネットワーク構成例を示す図である。上記実施形態のハードウェア＆ソフトウェア構成例を示す図である。上記実施形態の機能ブロック図である。上記実施形態における映像と音声の入出力の概要を示す概念図である。上記実施形態の利用シーン例を示す概念図である。

図１に、本実施形態のネットワーク構成例を示す。図１に示すように、本実施形態においては、インターネットなどのネットワークを介して、情報処理装置１００とクラウド上のサーバ２００がデータ通信を行う。ネットワークの形態に限定はない。情報処理装置１００は、パーソナルコンピュータ（以下、主として「ＰＣ」と呼ぶ）、スレート型ＰＣ、タブレット型ＰＣ、スマートフォン、携帯型情報端末（Personal Digital Assistance: PDA）などのパーソナルデバイスである。ＰＣの形態として据え置き型とノートブック型を例示しているが、限定するものではない。

種々のサービスを提供するサーバであるクラウド上のサーバ２００としては、例えば、短文投稿サーバ２０１、掲示板サーバ２０２、ＳＮＳ（ソーシャルネットワーキングサービス）サーバ２０３、交流サーバ２０４などがある。短文投稿サーバ２０１とは、２００文字以内などの比較的短い文章を投稿できるサービスを提供するサーバである。掲示板サーバ２０２は、ＣＧＩ（Common Gateway Interface）などのウェブテクノロジを使って、文章を投稿できるサービスを提供するサーバである。ＳＮＳサーバ２０３、交流サーバ２０４も、文章を投稿できるが、ユーザアカウント同士がリンクで繋がり、現実の友人関係をリンクで表すことができるようになっている。サービスの種類に特に限定はないので、情報処理装置１００がその他サーバ２０５と通信可能であってもよい。

以下では、情報処理装置１００が典型的な実施の一例として、短文投稿サーバ２０１と通信を行う例について述べる。

図２に、本実施形態のハードウェア＆ソフトウェア構成例を示す。図示の例では、情報処理装置１００は、演算処理装置１１０、一次記憶装置１１１、二次記憶装置１１２を持つ。その他に入出力装置として、表示出力を行う表示装置１１３、通信装置１１４、音声入力装置１１５、音声出力装置１１６を持つ。

一次記憶装置１１１は、揮発性の記憶装置であり作業メモリとして用いる。二次記憶装置１１２は、不揮発性の記憶装置であり、オペレーティングシステム（以下、ＯＳ）１２０、ＴＶ視聴アプリケーション１２１、その投稿プラグイン１２２、対話型音声認識ＵＩアプリケーション１２３、ブラウザエンジン１２４、投稿ＡＰＩ１２５が格納されている。

これらのソフトウェアプログラムが、演算処理装置１１０により起動され、一次記憶装置１１１に展開されることによって、後述するような機能を提供する各機能ブロックを構成する。なお、各機能ブロックは、インストールされているソフトウェアプログラムではなくＳａａＳ（Software as a Service）により提供されてもよい。図示のハードウェア＆ソフトウェア構成例は発明が実施可能であることを説明するための一例である。

ＴＶ視聴アプリケーション１２１は、ユーザが情報処理装置１００を用いてテレビを視聴するための統合アプリケーションである。テレビジョン映像は、ケーブルテレビや地上波デジタル放送の放送波や衛星を経由した放送波などによって搬送されてよく、デコードも情報処理装置１００内で行ってもよいし、或いは専用の電子機器でデコードした映像信号を情報処理装置に入力させてもよい。ＴＶ視聴アプリケーション１２１は、このように得られたテレビジョン映像を表示装置１１３に表示させる。また、テレビジョン音声を音声出力装置１１６に出力させる。

投稿プラグイン１２２は、ＴＶ視聴アプリケーション１２１のプラグインである。ＴＶ視聴アプリケーション１２１が起動中に対話型音声認識ＵＩアプリケーション１２３や投稿ＡＰＩ１２５と連携を取る。そして、ＴＶ視聴アプリケーション１２１に、ネットワーク上のホストが提供するサービス（本実施形態の場合、「短文投稿サービス」）を利用する機能を付加する。

対話型音声認識ＵＩアプリケーション１２３は、バックグラウンドで起動し、音声入力装置１１５から入力された音声信号を音声認識して、認識した音声の内容に応じた処理を行う。

ブラウザエンジン１２４は、ＨＴＴＰプロトコルによる通信を行うソフトウェアの中核部分である。ＯＳ１２０の機能の一部であってもよいが、本例では別アプリケーションとして構成する例を示した。投稿ＡＰＩ１２５は、短文投稿サーバ２０１とアプリケーションプログラム間通信を行うための小規模なプログラムである。通信にＨＴＴＰを使うため、本例ではブラウザエンジン１２４のプラグインとして構成する例が示してある。

図３に、本実施形態の機能ブロック図を示す。図示のように、情報処理装置１００は、入力音声ストリーム取得部１０１、出力音声ストリーム取得部１０２、前処理部１０３、音声認識部１０４、形態素解析部１０５、文脈解析部１０６、音素比較部１０７、音素記憶部１０８、実行部１０９を有する。

入力音声ストリーム取得部１０１は、ハードウェアの音声入力装置１１５が観測した音声ストリームを取得する機能を備える。出力音声ストリーム取得部１０２は、ＴＶ視聴アプリケーション１２１から出力される音声ストリームを取得する機能を備える。

図４に、本実施形態における映像と音声の入出力の概要を示す。図示のように、音声出力装置１１６からは、ＴＶ視聴アプリケーション１２１から出力される音声ストリームがテレビ音声として出力される。逆に、音声入力装置１１５には、出力されたテレビ音声が壁などに反射して戻ってきた音声に加えて、テレビを視聴するユーザの歓声や音声認識させて利用するための音声などが入力される。他に、それら以外の環境音なども入力される可能性がある。

したがって、音声入力装置１１５が情報処理装置１００に入力する音声の音声ストリームには、ＴＶ視聴アプリケーション１２１から出力される音声が含まれる可能性があり、このため、音声入力装置１１５が情報処理装置１００に入力する音声に含まれる情報処理装置１００に対するユーザの指令が適切に認識又は解析できないことがある。

この問題を解決するため、前処理部１０３は、入力音声ストリーム取得部１０１が取得した音声ストリーム、すなわち、音声入力装置１１５が情報処理装置１００に入力する音声の音声ストリームから、出力音声ストリーム取得部１０２が取得した音声ストリームに基づいて、ＴＶ視聴アプリケーション１２１から出力した音声を除去する。

この前処理部１０３によれば、情報処理装置１００はクリアな音声でユーザの指令を受け取ることができ、音声認識を行う情報処理装置において複雑な処理の実行を可能にすることができる。なお、前処理部１０３は、ノイズ除去なども行う。

次に、音声認識部１０４は、出力音声やノイズなどを除去した音声のストリームから音素を抽出して、音声ストリームを音素の並びに変換する。その際、音素記憶部１０８などにあらかじめ記憶されている音素と、切れ目のない音声ストリームを任意の基準で抽出した音素候補とを比較し、類似の尤度が最も高い音素を認識する。尤度が所定の閾値より低い場合は、その尾音素候補を破棄するなどの処理を行う。この音素比較は、音素比較部１０７が実行する。音素は、通常言語毎に行い、音素記憶部１０８には音声ストリームで発話されている言語が有する音素が記憶されている。

次に、形態素解析部１０５は、音声認識部１０４から出力された一連の音素の並びを形態素に分割する。この処理には、通常図示しないコーパスなどを用いる。次に、文脈解析部１０６は、形態素分割された音素の並びを、形態素毎の意味内容に基づいて解析する。

これら一連の処理において、形態素解析部１０５は、音声認識部１０４から出力された一連の音素の並びのうち、音素記憶部１０８に記憶されている所定の音素の並びに一致する尤度が所定の値より高い並びを見つけた場合、当該並びを文脈解析部１０６に回すべき音素の並びから取り除く。

音素記憶部１０８には、通常、音節やモーラ毎に音素が記憶されているが、本実施形態では例外的に、いくつかの音素の組み合わせが、音素比較の際に優先的に比較されるべき対象として記憶されている。或いは、音素比較部１０７は、このいくつかの音素の組み合わせを音素比較の際に優先的に比較する。

このいくつかの音素の組み合わせ、ないし、所定の音素の並びを、以下、「キーワード１０８ａ」と呼ぶ。形態素解析部１０５は、音声ストリームからキーワード１０８ａに一致する一連の音声を認識すると、その部分を取り除き、実行部１０９に渡す。このとき実行部１０９は、キーワード１０８ａが取り除かれた音声ストリームが「データ」であるとすると、形態素解析部１０５から渡されたキーワード１０８ａは「メタデータ」であると認識する。

メタデータの含意するところは、さまざまであるが、キーワード１０８ａのうち少なくとも一つは、入力された音声ストリームが情報処理装置１００への処理の実行を指示する指令を含むものであることを意味するものであることが好ましい。このようなキーワード１０８ａを「第１キーワード」と便宜的に呼ぶ。

また、キーワード１０８ａとしてはさらに、第１キーワードが抽出されたあとに、音素比較部１０７から音素の並びの一致が判断された場合に限り抽出されるキーワードを有することが好ましい。このようなキーワード１０８ａを「第２キーワード」と便宜的に呼ぶ。

本実施形態において、第２キーワードは、第１キーワードと当該第２キーワードとの間の音声、及び、別の第２キーワードと当該第２キーワードとの間の音声を、音声認識、形態素解析、文脈解析した結果得られたデータを引数として用いて情報処理装置１００に出す指令であると解釈する。この解釈は、実行部１０９が実行する。

本実施形態における指令の具体的態様としては、指令が、第１キーワードと当該第２キーワードとの間の音声、及び、別の第２キーワードと当該第２キーワードとの間の音声を、音声認識、形態素解析、文脈解析した結果得られたデータを、短文投稿サーバ２０１に投稿するという指令であることが好ましい。

図５に、情報処理装置１００の利用シーン例を示す。一例として、ＴＶ視聴アプリケーション１２１は、表示画面１１３ａ中に所定のエリアを占めるテレビ画面１１３ｂに、地上デジタル放送で放映されているテレビジョン画面を表示している。同時に、テレビジョン音声も音声出力装置１１６から出力している。この出力音声は、音声入力装置１１５から入力されても前処理部１０３によりキャンセルされる。

ここでユーザが第１キーワードに該当する単語と第２キーワードに該当する単語と、この両単語に挟まれた言葉（一文をなしていてもそうでなくてもよい）を発話すると、投稿プラグイン１２２が両単語に挟まれた言葉を短文投稿サーバ２０１に投稿する。ＴＶ視聴アプリケーション１２１が提供する投稿用ＧＵＩ１１３ｃには、前記両単語に挟まれた言葉が表示される。ユーザは、キーボードやマウスなどの従来のマン・マシン・インターフェースに手を触れることなく情報処理装置１００を操作可能である。

上述した本発明の実施形態によれば、音声認識を行う情報処理装置１００において複雑な処理の実行を可能にするという効果がもたらされる。例えば、キーワードを、直前のデータが分岐の条件や繰り返しを抜けるための条件であることを意味するものと規定すると、分岐処理や繰り返し処理をこの情報処理装置１００で実現することが可能になる。

また、キーワード１０８ａは、情報処理装置１００のユーザ自身の音声を録音したものであることが好ましい。この構成によれば、音素比較部１０７による音素比較の際の精度が高まるという効果がもたらされる。

また、上記実施形態では、形態素解析部１０５が行う処理の前の過程で、音素比較部１０７による音素比較に基づく所定の音素の並びがあらかじめ記憶されている音素の並びとで一致するものが抽出される。この構成によれば、メタデータに対して形態素解析等が実行されることが無く、とりわけ文脈を解析する際にメタデータがノイズとならない。すなわち、音声認識の精度が向上するという効果がある。

また、本実施形態は、所定の音素の並びが検出された条件の下で、初めて検出することが可能になる所定の音素の並びを設けている。この構成によれば、ユーザの意図しないときに情報処理装置１００が指令を誤って認識する可能性が低減する。

１００情報処理装置
１０１入力音声ストリーム取得部
１０２出力音声ストリーム取得部
１０３前処理部
１０４音声認識部
１０５形態素解析部
１０６文脈解析部
１０７音素比較部
１０８音素記憶部
１０８ａキーワード
１０９実行部
１２１ＴＶ視聴アプリケーション
１２２投稿プラグイン
１２３対話型音声認識ＵＩアプリケーション

Claims

あらかじめ複数の音素と、第１の所定の音素の並びと、第２の所定の音素の並びと、を記憶する音素記憶手段と、
音声ストリームから、前記音素記憶手段に記憶されている複数の音素との比較により音素を抽出し、前記音声ストリームを音素の並びにする音声認識手段と、
前記音声認識手段により得られた音素の並びを形態素毎に分割する形態素分析手段と、
形態素毎に分割された音素の並びに基づいて文脈を解析する文脈解析手段と、
文脈が解析された音素の並びに基づいて処理を実行する実行手段と、
を有し、
前記形態素分析手段は、
前記音声認識手段により得られた音素の並びの中で、前記音素記憶手段に記憶されている前記第１の所定の音素の並びに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、
前記第１の所定の音素の並びに一致する音素の並びが存在した場合であって、当該音素の並び以降に前記第２の所定の音素の並びと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、前記実行手段が実行する処理の内容として、前記実行手段に渡し、
前記実行手段は、
前記形態素分析手段から渡された前記処理の内容を、前記文脈が解析された音素の並びを引数とする指令として、実行する
ことを特徴とする、情報処理装置。
前記実行手段は、
前記第１の所定の音素の並びとの一致が存在した箇所と、前記第２の所定の音素の並びとの一致が存在した箇所とに挟まれた箇所の前記文脈が解析された音素の並びを前記引数とする
ことを特徴とする、請求項１に記載の情報処理装置。
前記音素記憶手段は、前記第２の所定の音素の並びを複数記憶し、
前記実行手段は、
前記第２の所定の音素の並びとの一致が存在した箇所と、別の前記第２の所定の音素の並びとの一致が存在した箇所とに挟まれた箇所の前記文脈が解析された音素の並びを前記引数とする
ことを特徴とする、請求項１又は２に記載の情報処理装置。
前記実行手段は、
前記第１の所定の音素の並びとの一致が存在した箇所と、前記第２の所定の音素の並びとの一致が存在した箇所とに挟まれた箇所、
又は、
前記第２の所定の音素の並びとの一致が存在した箇所と、別の前記第２の所定の音素の並びとの一致が存在した箇所とに挟まれた箇所の、
前記文脈が解析された音素の並びを、
後続する前記第２の所定の音素の並びが意味する分岐の条件又は繰り返しを抜けるための条件として解釈する
ことを特徴とする請求項３に記載の情報処理装置。
情報処理装置に入力される音声を取得する入力音声ストリーム取得手段と、
情報処理装置が出力する音声を取得する出力音声ストリーム取得手段と、
前記出力音声ストリーム取得手段が取得した音声に基づいて、前記入力音声ストリーム取得手段が取得した音声から、情報処理装置が出力した音声が反射して入力された音声を取り除く処理を行い、前記音声ストリームを生成する前処理手段と、
を有する
ことを特徴とする、請求項１から４のいずれか１項に記載の情報処理装置。
情報処理装置の制御方法であって、
あらかじめ複数の音素と、第１の所定の音素の並びと、第２の所定の音素の並びと、を記憶する音素記憶ステップと、
音声ストリームから、前記音素記憶ステップで記憶した複数の音素との比較により音素を抽出し、前記音声ストリームを音素の並びにする音声認識ステップと、
前記音声認識ステップにより得られた音素の並びを形態素毎に分割する形態素分析ステップと、
形態素毎に分割された音素の並びに基づいて文脈を解析する文脈解析ステップと、
文脈が解析された音素の並びに基づいて処理を実行する実行ステップと、
を有し、
前記形態素分析ステップでは、
前記音声認識ステップにより得られた音素の並びの中で、前記音素記憶ステップで記憶した前記第１の所定の音素の並びに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、
前記第１の所定の音素の並びに一致する音素の並びが存在した場合であって、当該音素の並び以降に前記第２の所定の音素の並びと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、前記実行ステップで実行する処理の内容として、前記実行ステップに渡し、
前記実行ステップでは、
前記形態素分析ステップから渡された前記処理の内容を、前記文脈が解析された音素の並びを引数とする指令として、実行する
ことを特徴とする、情報処理装置の制御方法。
コンピュータに、
あらかじめ複数の音素と、第１の所定の音素の並びと、第２の所定の音素の並びと、を記憶する音素記憶処理と、
音声ストリームから、前記音素記憶処理で記憶した複数の音素との比較により音素を抽出し、前記音声ストリームを音素の並びにする音声認識処理と、
前記音声認識処理により得られた音素の並びを形態素毎に分割する形態素分析処理と、
形態素毎に分割された音素の並びに基づいて文脈を解析する文脈解析処理と、
文脈が解析された音素の並びに基づいて処理を実行する実行処理と、
を実行させるためのプログラムであって、
前記形態素分析処理は、
前記音声認識処理により得られた音素の並びの中で、前記音素記憶処理で記憶した前記第１の所定の音素の並びに一致する音素の並びが存在すれば、当該音素の並びを形態素毎に分割する処理の対象から取り除き、
前記第１の所定の音素の並びに一致する音素の並びが存在した場合であって、当該音素の並び以降に前記第２の所定の音素の並びと一致する音素の並びが存在する場合、当該音素の並びを形態素毎に分割する処理の対象から取り除いた上で、前記実行処理で実行する処理の内容として、前記実行処理に渡す
処理となり、
前記実行処理は、
前記形態素分析ステップから渡された前記処理の内容を、前記文脈が解析された音素の並びを引数とする指令として、実行する
処理となる、
ことを特徴とする、プログラム。