JP6664466B2

JP6664466B2 - 処理実行装置、処理実行装置の制御方法、および制御プログラム

Info

Publication number: JP6664466B2
Application number: JP2018505367A
Authority: JP
Inventors: 彰則横濱; 茂典木下; 誠悟伊藤
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-03-14
Filing date: 2017-02-17
Publication date: 2020-03-13
Anticipated expiration: 2037-02-17
Also published as: WO2017159207A1; JPWO2017159207A1

Description

本発明は入力された音声が示す指示に応じた処理を実行する処理実行装置などに関する。

ユーザが入力した音声に応じた処理を実行する技術（いわゆる音声認識）は古くから研究されている。下記特許文献１には、音声認識と意図解析とをサーバにて効率的に行う技術が開示されている。

日本国公開特許公報「特開２０１０−１７０１３７号」（２０１０年８月５日公開）日本国公開特許公報「特開２０１２−１２８１８８号」（２０１２年７月５日公開）

特許文献１の技術は、いわゆる自然言語処理を行う技術である。これらの技術を用いた音声認識は、多くのシチュエーションを汎用的に判断する目的で用いられている。そのため、特定の処理を実行する場合において、認識精度が下がってしまう。このため、ユーザの意図通りの処理の実行が行われないことがあるという問題がある。例えば、端末装置においてスケジュール帳のアプリケーションを起動させ、予定を登録する場合において、汎用的に判断する音声認識では認識精度が下がり、ユーザの意図通りの予定が登録されないことがある。

本発明は、前記の問題点に鑑みてなされたものであり、その目的は、特定の処理を実行する場合において、実行する処理をユーザの意図通りのものとすることができる処理実行装置を実現することにある。

上記の課題を解決するために、本発明の一態様に係る処理実行装置は、入力された音声が示す指示に応じた処理を実行する処理実行装置であって、上記音声から生成された入力音素列の一部である第１部分音素列と、上記音声の述部候補となる複数の音素列である述部音素列のいずれかとの一致率である第１一致率を特定する第１の特定部と、上記入力音素列における、上記第１部分音素列以外の残部である第２部分音素列と、上記第１一致率が特定された述部音素列に応じた、上記音声の単語候補となる複数の音素列である単語音素列のいずれかとの一致率である第２一致率を特定する第２の特定部と、上記第１一致率と上記第２一致率とを統合した統合一致率が最も高い、上記第１部分音素列および上記第２部分音素列の組み合わせを特定して、上記入力音素列に含まれる上記述部音素列として最も確からしい最尤述部音素列と、上記入力音素列に含まれる上記単語音素列として最も確からしい最尤単語音素列とを特定する音素列特定部と、上記最尤述部音素列および上記最尤単語音素列に応じた処理を実行する処理実行部と、を備える。

また、上記の課題を解決するために、本発明の一態様に係る処理実行装置の制御方法は、入力された音声が示す指示に応じた処理を実行する処理実行装置の制御方法であって、上記音声から生成された入力音素列の一部である第１部分音素列と、上記音声の述部候補となる複数の音素列である述部音素列のいずれかとの一致率である第１一致率を特定する第１の特定ステップと、上記入力音素列における、上記第１部分音素列以外の残部である第２部分音素列と、上記第１一致率が特定された述部音素列に応じた、上記音声の単語候補となる複数の音素列である単語音素列のいずれかとの一致率である第２一致率を特定する第２の特定ステップと、上記第１一致率と上記第２一致率とを統合した統合一致率が最も高い、上記第１部分音素列および上記第２部分音素列の組み合わせを特定して、上記入力音素列に含まれる上記述部音素列として最も確からしい最尤述部音素列と、上記入力音素列に含まれる上記単語音素列として最も確からしい最尤単語音素列とを特定する音素列特定ステップと、上記最尤述部音素列および上記最尤単語音素列に応じた処理を実行する処理実行ステップと、を含む処理実行装置の制御方法。

本発明の一態様によれば、特定の処理を実行する場合において、実行する処理をユーザの意図通りのものとすることができるという効果を奏する。

本発明の実施形態１に係るロボットの要部構成の一例を示すブロック図である。本発明の概要を示す図である。図１に示すロボットが記憶している音素列辞書のデータ構造および具体例を示す図である。図１に示すロボットが記憶する、第１の部分音素列と述部音素列との一致率ランキングのデータ構造および具体例を示す図である。図１に示すロボットが記憶する、第２の部分音素列と単語音素列との一致率ランキングのデータ構造および具体例を示す図である。図１に示すロボットが記憶している処理特定用データベースのデータ構造および具体例を示す図である。図１に示すロボットが実行する処理の流れの一例を示すフローチャートである。本発明の実施形態２に係る処理実行システムに含まれるロボットの要部構成の一例を示すブロック図である。本発明の実施形態３に係る処理実行システムに含まれるロボットおよびサーバの要部構成の一例を示すブロック図である。図９に示すロボットが実行する処理の流れの一例を示すフローチャートである。本発明の各実施形態の変形例の概要を示す図であり、音素数の差が所定値以上である場合、一致率を０とする例を説明する図である。

〔実施形態１〕
以下、本発明の一実施形態について、図１〜図７に基づいて説明する。まず、本発明の概要を図２に基づいて説明する。図２は、本発明の概要を示す図である。なお、ここでは、本発明の一態様をロボット１に適用した例を説明する。本実施形態に係るロボット１は、ユーザが入力（発話）した音声に応じてアプリケーションを起動し、該音声に応じた処理を実行する装置である。なお、ロボット１は、ユーザの指示に応じて可動部位を駆動させる機能や、通話機能、画面表示機能、音声出力機能、写真撮影機能などのスマートフォンとしての機能を備えるものであってもよい。なお、本発明は入力された音声が示す指示に応じた処理を実行する装置であれば適用可能であり、本発明の適用例はロボット１に限定されない。本発明の一態様は例えば、パーソナルコンピュータ、スマートフォン、タブレット、携帯電話などに好適である。

図２に示すように、ロボット１は、ユーザが入力した音声を受け付ける。図示の例では、ユーザはスケジュール帳アプリケーションに予定を追加するために、「明日、アベノハルカスに行くと覚えて」と発話している。ユーザが発話した音声を受け付けると、ロボット１は、該音声の波形データから音素列を生成する。なお、波形データからの音素列の生成には既存の技術を使用することができる。図示の例では、音素列として「asitaabenotarukasuniikutoomoete」と、ユーザが発話した音声とは一部異なる音素列が生成されたとする（図２の「（１）音素列生成」の下線部分）。ただし、図示の生成された音素列は一例であり、この例に限定されない。例えば、ユーザが発話した音声のとおり、「asitaabenoharukasuniikutooboete」という音素列が生成されてもよい。なお以降、上記の音素列を入力音素列と称する場合がある。

次に、ロボット１は、入力音素列の特定を行う。具体的には、図示のように、ロボット１はまず入力音素列において述部に相当する部分の音素列を特定する。図示の例では、入力音素列の「omoete」の部分を「oboete」であると特定している。続いて、ロボット１は、図示のように、述部以外の単語に相当する部分の音素列を特定する。図示の例では、入力音素列の「asitaabenotarukasuniikuto」の部分を「asitaabenoharukasuniikuto」であると特定している。なおこのとき、ロボット１は、特定した述部の音素列（図示の例では「oboete」）で、述部以外の単語に相当する部分を特定するための辞書の絞り込みを行う。

最後に、ロボット１は、特定した音素列に応じた処理を実行する。図示の例では、スケジュール帳アプリケーションを起動し、翌日（明日）の予定として「アベノハルカスに行く」を登録している。なお、ロボット１が画面表示機能を備えている場合、図示のように、表示部に予定を登録したことを示す画面５０を表示してもよい。なお、図２を参照して説明した、上記の処理の詳細については後述する。

以上のように、本発明の一態様に係るロボット１は、述部の音素列によって、入力音素列の述部以外の部分（上記の例では「asitaabenotarukasuniikuto」の部分）に含まれる単語を絞り込むことができる。これにより、ユーザが入力した音声に応じて、特定の処理を実行するという、音声入力を特定の目的に使用するケースにおいて、認識精度を上げることができる。また、音素列を特定するためにかかる時間を短縮することができる。

次に、ロボット１の要部構成について図１に基づいて説明する。図１は、ロボット１の要部構成の一例を示すブロック図である。ロボット１は、音声を受け付けるデバイス（例えばマイク）である音声入力部１１、ロボット１の機能を統括して制御する制御部１２、および、ロボット１が使用する各種データを記憶する記憶部１３を備える。なお、ロボット１がスマートフォンとしての機能を有する場合、ロボット１は該機能を実現する部材（例えば、通話機能を実現する通話部、音声出力機能を実現する音声出力部など）を備える。また、ロボット１は可動部位を駆動させる機能を実現する部材を備えていてもよい。ただし、これらの部材は本発明との関連が薄いため、図示および説明を省略する。

制御部１２は、音声入力制御部２１、音素列生成部２２、文末検知部２３、一致率特定部２４、音素列特定部２５、および処理実行部２６を含む。

音声入力制御部２１は、音声入力部１１を制御する。具体的には、音声入力制御部２１は、音声入力部１１から取得した音声の波形データを音素列生成部２２に出力する。また、音声入力制御部２１は、文末検知部２３からの指示に従って波形データを文末検知部２３に出力する。

音素列生成部２２は、音声の波形データから音素列（入力音素列）を生成する。音素列生成部２２は、音声入力制御部２１から取得した波形データから音素を特定し、該音素を記憶部１３に記憶していく処理を繰り返す。これにより、記憶部１３には音素列データ３１（例えば、図２で示した「asitaabenotarukasuniikutoomoete」）が記憶される。音素列生成部２２は、音素を生成できなかった場合（換言すれば、音声入力制御部２１から、音素を生成できるような波形データを取得できなかった場合）、文末検知部２３に音声入力が終了したか否かを判定するよう指示する。

文末検知部２３は、音声入力が終了したか否か、すなわち、記憶部１３に記憶された音素列データ３１の最後の音素が文末であるか否かを検知する。具体的には、文末検知部２３は、音素列生成部２２からの指示に従って、音声入力制御部２１から波形データを取得する。そして、該波形データを参照し、音声の入力が終了したか否かを判定する。該判定について具体的に説明すると、文末検知部２３は、音声が入力されていないことを示す波形データを所定時間取得した場合、音声の入力が終了したと判定する。一方、所定時間中に音声が入力されたことを示す波形データを取得した場合、音声の入力が終了していないと判定する。なお、「音声が入力されていないことを示す波形データ」とは、波の高さが所定の閾値に満たない波形データ（換言すれば、音素が生成できない波形データ）である。文末検知部２３は、判定結果を音素列生成部２２に出力する。また、音声の入力が終了したと判定した場合、最後の音素を文末と特定し、音素列の特定指示を一致率特定部２４に出力する。

一致率特定部２４は、音素列データ３１に含まれる部分である１以上の部分音素列について、辞書に登録された音素列との一致率を特定する。一致率特定部２４は、述部特定部２４１（第１の特定部）と述部以外特定部２４２（第２の特定部）とを含む。一致率特定部２４は、文末検知部２３からの指示を受けると、記憶部１３から音素列データ３１を読み出す。

述部特定部２４１は、読み出した音素列データ３１から、該音素列データ３１の一部であり、述部に相当する部分音素列（第１部分音素列）と、辞書に登録された述部を示す音素列（述部音素列）とを比較する。そして、述部特定部２４１は、比較結果に基づいて一致率（以降、第１一致率と称する場合がある）を特定する。具体的には、述部特定部２４１はまず、記憶部１３に記憶された音素列辞書３２から、述部音素列を登録している辞書である述部辞書３２ａ（述部音素列辞書）を読み出す。ここで、述部辞書３２ａについて図３に基づいて説明する。図３は、音素列辞書３２のデータ構造および具体例を示す図である。なお、図３に示す音素列辞書３２のデータ構造および具体例は一例であり、この例に限定されない。

図３の（ａ）に示すように、述部辞書３２ａは、「音素列」のカラムに、ユーザが発話した音声の述部候補となる複数の述部音素列を格納している。なお、括弧書きで示した部分は、音素列が示す述部を明示するための記載であり、「音素列」のカラムに格納されていなくてもよい。また、「検索辞書」のカラムには、音素列データ３１の第１部分音素列が各述部音素列に特定された場合に、その他の単語を特定する際に使用する音素列辞書３２を示す情報（カテゴリ情報）が格納されている。具体的には、第１部分音素列が「oboete」であると特定された場合、ユーザが入力した音声は予定の登録のための音声である可能性が高く、音素列データ３１には、時制、場所、動作などが含まれる可能性が高い。そのため、「oboete」という述部音素列には、後述する時制辞書３２ｂ、場所辞書３２ｃ、および動作辞書３２ｄを示す情報などが格納されている。時制辞書３２ｂは、時制を示す音素列が登録されている辞書である。場所辞書３２ｃは、場所を示す音素列が登録されている辞書である。動作辞書３２ｄは、動作を示す音素列が登録されている辞書である。なお、本実施形態に係る音素列は、子音と母音とが１文字になるように構成される。すなわち、撥音および促音も１文字で表現される。例えば、図３の（ａ）に示すように、「ん」に相当する音素は「@」で表現される。また、図３の（ｂ）に示すように、「きょ」に相当する音素は「Ko」で表現される（これに対して、小文字の「k」を用いる「ko」は「こ」を表す）。さらに、促音である「っ」は「!」で表現される。なお、この表現方法は一例であり、撥音や促音などの音素の表現方法はこの例に限定されない。

続いて、述部特定部２４１は、読み出された音素列データ３１を、音素列データ３１の文末部分（最後の音素）とその他の部分とに分割する。つまり、音素列データ３１が「asitaabenotarukasuniikutoomoete」である場合、「asitaabenotarukasuniikutoomoet/e」と分割する（「／」は分割箇所を示す）。そして、音素列データ３１の最後の音素側の音素列（以降、後方音素列と称する）について、述部辞書３２ａに含まれる述部音素列と比較し、一致率を算出する。なお、一致率の算出については既存の技術を用いることができる。例えば、編集距離（レーベンシュタイン距離）から一致率を算出する技術を用いてもよいが、この例に限定されるものではない。そして、述部特定部２４１は、最も一致率の高い述部音素列を特定する。

続いて、述部特定部２４１は、分割箇所を１つ前に移動させた新たな分割パターン（すなわち、「asitaabenotarukasuniikutoomoe/te」）について、同様の処理を行い、後方音素列と最も一致率の高い述部音素列を特定する。そして、述部特定部２４１は、この処理を繰り返し、「/asitaabenoharukasuniikutoomoete」という分割パターンまでの各分割パターンについて、後方音素列と最も一致率の高い述部音素列を特定する。

続いて、述部特定部２４１は、特定した述部音素列についてのランキングを生成し、一致率ランキング３３として記憶部１３に記憶する。ここで、述部音素列の一致率ランキング３３ａ（以降、単に一致率ランキング３３ａと称する）の詳細について図４に基づいて説明する。図４は、一致率ランキング３３ａのデータ構造および具体例を示す図である。なお、図４に示す一致率ランキング３３ａは一例であり、データ構造および具体例はこの例に限定されない。

一致率ランキング３３ａは、分割パターンの後方音素列と述部音素列との組み合わせを一致率が高い順に並べたデータである。該組み合わせには、分割パターン（すなわち後方音素列を特定可能な情報）、該分割パターンにおける後方音素列と最も一致率の高い述部音素列、および、該一致率が含まれる。図示の例では、一致率ランキング３３ａは、上記の組み合わせを、一致率が高い順に３つ並べたデータである。一致率ランキング３３ａにおいて、分割パターンは「分割パターン」のカラムに格納される。また、分割パターンにおける後方音素列と最も一致率の高い述部音素列は、「特定音素列」のカラムに格納される。また、一致率は「一致率」のカラムに格納される。述部特定部２４１は、該一致率ランキング３３ａから、一致率が最も高い（すなわち、ランキングが１位の）レコードを特定する。そして、特定したレコードに含まれる分割パターンと述部音素列とを述部以外特定部２４２に出力する。

述部以外特定部２４２は、音素列データ３１から第１部分音素列以外の残部（第２部分音素列）と、辞書に登録された単語を示す音素列（単語音素列）とを比較し、一致率（以降、第２一致率と称する場合がある）を特定する。具体的には、述部以外特定部２４２はまず、記憶部１３に記憶された音素列辞書３２から、述部辞書３２ａを読み出す。そして、述部辞書３２ａにおいて、述部特定部２４１から取得した述部音素列に対応付けられている音素列辞書３２の情報を読み出す。例えば、「oboete」に対応付けられている時制辞書３２ｂ、場所辞書３２ｃ、動作辞書３２ｄ（単語音素列辞書）などを読み出す。

ここで、図３を再度参照して、述部辞書３２ａ以外の音素列辞書３２について説明する。述部辞書３２ａ以外の音素列辞書３２（図示の例では、時制辞書３２ｂ、場所辞書３２ｃ、動作辞書３２ｄ）は、述部辞書３２ａと異なり、ユーザが発話した音声の単語候補となる複数の音素列（以降、単語音素列と称する）のみを格納するものである。なお、述部辞書３２ａ以外の音素列辞書３２は、図示の例に限定されるものではない。他の例としては、助詞を示す音素列を格納した助詞辞書などが挙げられる。

続いて、述部以外特定部２４２は、述部特定部２４１から取得した分割パターンについて、音素列データ３１の最初の音素側の音素列（以降、前方音素列と称する）を、最初の音素とその他の部分とに分割する。つまり、「asitaabenotarukasuniikuto」を「a/sitaabenotarukasuniikuto」と分割する。そして、該分割パターン（以降、第２分割パターンと称する）における前方音素列について、読み出した音素列辞書３２に含まれる単語音素列と比較し、一致率を算出する。そして、最も一致率の高い単語音素列を特定する。

続いて、述部以外特定部２４２は、分割箇所を１つ後に移動させた新たな第２分割パターン（すなわち、「as/itaabenotarukasuniikuto」）について、同様の処理を行い、前方音素列と最も一致率の高い単語音素列を特定する。そして、述部以外特定部２４２は、この処理を繰り返し、「asitaabenoharukasuniikuto/」という第２分割パターンまでの各第２分割パターンについて、前方音素列との一致率が最も高い単語音素列を特定する。

続いて、述部以外特定部２４２は、特定した単語音素列についてのランキングを生成し、一致率ランキング３３として記憶部１３に記憶する。ここで、単語音素列の一致率ランキング３３ｂ（以降、単に一致率ランキング３３ｂと称する）の詳細について図５に基づいて説明する。図５は、一致率ランキング３３ｂ、および、後述する一致率ランキング３３ｃのデータ構造および具体例を示す図である。なお、図５に示す一致率ランキング３３ｂおよび一致率ランキング３３ｃは一例であり、データ構造および具体例はこの例に限定されない。

図５の（ａ）に示すように、一致率ランキング３３ｂは、第２分割パターンの前方音素列と単語音素列との組み合わせを一致率が高い順に並べたデータである。該組み合わせには、第２分割パターン（すなわち、第２分割パターンの前方音素列を特定可能な情報）、該第２分割パターンの前方音素列と最も一致率の高い単語音素列、および、該一致率が含まれる。図示の例では、一致率ランキング３３ｂは、上記の組み合わせを一致率が高い順に３つ並べたデータである。一致率ランキング３３ｂにおいて、第２分割パターンは「分割パターン」のカラムに格納される。また、第２分割パターンの前方音素列と最も一致率の高い単語音素列は、「特定音素列」のカラムに格納される。また、一致率は「一致率」のカラムに格納される。

続いて、述部以外特定部２４２は、一致率ランキング３３ｂの各レコードに含まれる第２分割パターンそれぞれの後方音素列（すなわち、単語音素列との第２一致率が算出されていない部分）について、最初の音素とその他の部分とに分割する。つまり、第２分割パターンが「asita/abenotarukasuniikuto」のレコードの場合、「abenotarukasuniikuto」を「a/benotarukasuniikuto」と分割する。そして、該分割パターン（以降、第３分割パターンと称する）における前方音素列について、読み出した音素列辞書３２に含まれる単語音素列と比較し、一致率を算出する。そして、最も一致率の高い単語音素列を特定する。続いて、述部以外特定部２４２は、分割箇所を１つ後に移動させた新たな第３分割パターン（すなわち、「ab/enotarukasuniikuto」）について、同様の処理を行い、前方音素列との一致率が最も高い単語音素列を特定する。そして、述部以外特定部２４２は、この処理を繰り返し、「abenoharukasuniikuto/」という第３分割パターンまでの各第３分割パターンについて、前方音素列との一致率が最も高い単語音素列を特定する。なお、後の説明のために、この段落の処理を処理Ａとする。

続いて、述部以外特定部２４２は、特定した単語音素列についてのランキングを生成し、一致率ランキング３３（一致率ランキング３３ｃ）として記憶部１３に記憶する。上述したように、一致率ランキング３３ｃは、第２分割パターンそれぞれの後方音素列において生成されるので、図５の（ｂ）および図５の（ｃ）に示すように、複数の一致率ランキング３３ｃが生成されることとなる。図５の（ｂ）に示す一致率ランキング３３ｃ１は、一致率ランキング３３ｂにおける順位が１位の第２分割パターンの後方音素列を、さらに分割した第３分割パターンの前方音素列と単語音素列との組み合わせについて、一致率が高い順に並べたデータである。また、図５の（ｃ）に示す一致率ランキング３３ｃ２は、一致率ランキング３３ｂにおける順位が２位の第２分割パターンの後方音素列を、さらに分割した第３分割パターンの前方音素列と単語音素列との組み合わせについて、一致率が高い順に並べたデータである。また、述部以外特定部２４２は、一致率ランキング３３ｂにおける順位が３位の第２分割パターンの後方音素列を、さらに分割した第３分割パターンの前方音素列と単語音素列との組み合わせについて、一致率が高い順に並べた一致率ランキングも生成する。述部以外特定部２４２は、該一致率ランキングについても記憶部１３に記憶する。なお、後の説明のために、この段落の処理を処理Ｂとする。

述部以外特定部２４２は、一致率ランキング３３ｂにおける各一致率と、一致率ランキング３３ｃにおける各一致率と合計した合計値（前後統合一致率）が最も高いレコードの組み合わせを特定する。図５の例の場合、一致率ランキング３３ｂにおける、分割パターンが「asita/abenotarukasuniikuto」のレコードと、一致率ランキング３３ｃ１における、分割パターンが「abenotarukasu/niikuto」のレコードとの組み合わせを特定する。なお以降、分割パターンが「asita/abenotarukasuniikuto」のレコードを第１レコードと称する。また、分割パターンが「abenotarukasu/niikuto」のレコードを第２レコードと称する。そして、述部以外特定部２４２は、第１レコードに含まれる一致率を第２一致率として更新（特定）し、該第１レコードに含まれる分割パターンを一時的に記憶しておく。また、述部以外特定部２４２は、第１レコードに含まれる分割パターンの後方音素列から生成された一致率ランキング３３ｃを、上述した処理Ａを行う対象の一致率ランキングとする。この例の場合、一致率ランキング３３ｃ１が処理Ａを行う対象の一致率ランキングとなる。なお、後の説明のために、この段落の処理を処理Ｃとする。

以降、述部以外特定部２４２は、第２部分音素列における、単語音素列との第２一致率が特定されていない部分に対して、上述した処理Ａ、処理Ｂ、および処理Ｃと同様の処理を、それ以上分割できなくなるまで繰り返す。これにより、少なくとも１つの分割パターンが一時的に記憶された状態となる。なお、「それ以上分割できなくなる」とは、分割箇所を示す「/」が最後の音素の後にある分割パターンを含むレコードが、処理Ｃにおけるレコードの組み合わせの一方として特定された場合を示す。分割箇所を示す「/」が最後の音素の後にある分割パターンの一例としては、後方音素列が「to」である場合における「to/」のような分割パターンが挙げられる。

このように、前後統合一致率が最も高いレコードの組み合わせを特定し、該組み合わせの第１レコードに含まれる一致率を第２一致率として特定することで、最も確からしい単語音素列を選ぶことができる可能性が高くなる。

一致率特定部２４は、記憶部１３に記憶した一致率ランキング３３と、一時的に記憶した分割パターンとを音素列特定部２５に出力する。なお、図４および図５に示す一致率ランキング３３のレコードは３つ（すなわち、３位までのランキング）であるが、この例に限定されるものではない。また、一致率ランキング３３は、一致率が所定の閾値以上（例えば、０．５０以上）の後方音素列と述部音素列との組み合わせのみを格納するものであってもよい。換言すれば、図４および図５の例において、一致率が０．５０以上の分割パターンが１つまたは２つのみの場合、それぞれレコードが１つまたは２つのみとなってもよい。

音素列特定部２５は、音素列データ３１からユーザが入力した音声に相当する音素列を特定する。換言すれば、音素列データ３１をユーザが入力した指示を実行可能な音素列に補正する。具体的には、音素列特定部２５は、一致率特定部２４から取得した一致率ランキング３３ａから、一致率が最も高いレコードを特定する。そして、該レコードに含まれる分割パターンの後方音素列を、該レコードに含まれる述部音素列（最尤述部音素列）に特定する。例えば、「omoete」を「oboete」として特定する。

続いて、音素列特定部２５は、一致率ランキング３３ａ以外の一致率ランキング３３と一時的に記憶された分割パターンとから第２部分音素列に含まれる各単語音素列（最尤単語音素列）を特定する。なお、一致率ランキング３３ａ以外の一致率ランキングとは、一致率ランキング３３ｂ、一致率ランキング３３ｃなどを指す。具体的には、一時的に記憶された分割パターンを一致率ランキング３３から特定し、該分割パターンの前方音素列を、一致率ランキング３３において該分割パターンに対応付けられた単語音素列に特定する。図５の例の場合、「asita」、「abenoharukasu」、「ni」、「iku」、「to」をそれぞれ特定する。

上記の処理について換言すれば、音素列特定部２５は、統合一致率が最も高い、第１部分音素列および第２部分音素列の組み合わせを特定する。そして、音素列特定部２５は、述部音素列として最も確からしい最尤述部音素列と、単語音素列として最も確からしい最尤単語音素列とを特定する。なお、統合一致率とは、一致率ランキング３３ａにおける最も高い一致率（第１一致率）と、一致率ランキング３３ａ以外の一致率ランキング３３における最も高い一致率（第２一致率）とを統合したものである。

そして、音素列特定部２５は、特定した述部音素列および単語音素列によって補正された音素列データ３１（以降、補正音素列と称する場合がある）を処理実行部２６に出力する。上述の例の場合、「asitaabenoharukasuniikutooboete」を処理実行部２６に出力する。

処理実行部２６は、ユーザが入力した音声が示す指示に応じた処理を実行する。具体的には、処理実行部２６は、音素列特定部２５から取得した補正音素列に含まれる述部音素列を特定し、該述部音素列と記憶部１３に記憶されている処理特定用データベース３４とから、処理を実行するためのアプリケーションを特定する。ここで、処理特定用データベース３４の詳細について、図６を参照して説明する。図６は、処理特定用データベース３４のデータ構造および具体例を示す図である。なお、図６の処理特定用データベース３４は一例であり、処理特定用データベース３４のデータ構造および具体例は図６の例に限定されない。

処理特定用データベース３４は、述部音素列とアプリケーションを示す情報とを対応付けて記憶するデータベースである。図６に示すように、「特定音素列」のカラムには、補正音素列に含まれ得る述部音素列が格納されている。また、「アプリケーション」のカラムには、処理を実行するためのアプリケーションの名称が格納されている。つまり、処理実行部２６は、補正音素列に含まれる述部音素列を含むレコードを特定することで、処理を実行するために用いるアプリケーションを特定することができる。

なお、「アプリケーション」のカラムに格納されている情報は、図３に示す述部辞書３２ａの各情報に対応付けられていてもよい。この場合、処理特定用データベース３４は省略され、処理実行部２６は、処理特定用データベース３４に代えて、述部辞書３２ａを参照して、処理を実行するために用いるアプリケーションを特定する。

処理実行部２６は特定したアプリケーションを記憶部１３に記憶されているアプリケーション３５から読み出す。そして、補正音素列に応じた処理を実行する。例えば、処理実行部２６は、スケジュール帳のアプリケーションを起動して、補正音素列を漢字仮名混じりの文字列に変更する。そして、該文字列が示す日時に、該文字列が示す予定を登録する。例えば、翌日の予定として、「アベノハルカスに行く」を登録する。なお、音素列を漢字仮名混じりの文字列に変更する技術、および、漢字仮名混じりの文字列から日付を特定する技術は、既存の技術を用いることができる。

記憶部１３は、音素列データ３１、音素列辞書３２、一致率ランキング３３、処理特定用データベース３４、およびアプリケーション３５を少なくとも記憶している。なお、これらのデータについては既に説明しているため、ここでの説明を省略する。

次に、本実施形態に係るロボット１が実行する処理の流れについて、図７に基づいて説明する。図７は、ロボット１が実行する処理の流れの一例を示すフローチャートである。

まず、ロボット１の音声入力制御部２１は、音声の波形データの取得を待機している状態である（Ｓ１）。音声入力部１１が音声を受け付けることにより、音声入力制御部２１が該波形データを取得すると（Ｓ１でＹＥＳ）、音素列生成部２２は、該波形データから音素列を生成し、記憶する（Ｓ２）。具体的には、該波形データから音素を生成し、記憶部１３に記憶する処理を繰り返す。音素列生成部２２は、音素を生成できなかった場合、文末検知部２３に音声入力が終了したか否かを判定するよう指示する。

続いて、文末検知部２３は、音素列生成部２２からの指示に従って、音声の入力が終了したか否かを判定する（Ｓ３）。具体的には、文末検知部２３は、音声入力制御部２１から取得した波形データを参照し、音声の入力が終了したか否かを判定する。音声の入力が終了したと判定した場合（Ｓ３でＹＥＳ）、最後の音素を文末と特定する（Ｓ４）とともに、音素列の特定指示を一致率特定部２４に出力する。

一致率特定部２４の述部特定部２４１は、文末検知部２３からの指示に従って第１部分音素列と述部音素列との一致率（第１一致率）を特定する（Ｓ５、第１の特定ステップ）。具体的には、述部特定部２４１は、音素列データ３１の分割パターンにおける後方音素列と述部音素列との組み合わせを一致率が高い順に並べた一致率ランキング３３ａを生成する。そして、述部特定部２４１は、一致率ランキング３３ａにおいて１位の組み合わせを、一致率特定部２４の述部以外特定部２４２に出力する。続いて、述部以外特定部２４２は、第２部分音素列と単語音素列との一致率（第２一致率）を特定する（Ｓ６、第２の特定ステップ）。具体的には、述部特定部２４１から取得した述部音素列に、述部辞書３２ａにおいて対応付けられている音素列辞書３２を用いて一致率を特定する。そして、一致率ランキング３３を生成するとともに、前後統合一致率が最も高いレコードの組み合わせ（第１レコードと第２レコードとの組み合わせ）を特定する。述部以外特定部２４２は、第１レコードに含まれる一致率を第２一致率として更新し、該第１レコードに含まれる分割パターンを一時的に記憶しておく。述部以外特定部２４２は、ステップＳ６の処理を、第２部分音素列をそれ以上分割できなくなるまで繰り返す。一致率特定部２４は、生成した一致率ランキング３３、および、一時的に記憶した分割パターンを音素列特定部２５に出力する。

続いて、音素列特定部２５は、入力された音声の音素列を特定する（Ｓ７、音素列特定ステップ）。具体的には、音素列特定部２５は、音素列データ３１を、取得した一致率ランキング３３および分割パターンに従って補正する。そして、補正した音素列データ３１（補正音素列）を、処理実行部２６に出力する。

最後に、処理実行部２６は、特定した音素列に応じた処理を実行する（Ｓ８、処理実行ステップ）。具体的には、補正音素列に含まれる述部音素列から処理の実行に使用するアプリケーションを特定し、該アプリケーションを起動して処理を実行する。例えば、スケジュール帳アプリケーションを用いて、翌日の予定として「アベノハルカスに行く」を登録する。以上で、ロボット１が実行する処理は終了する。

〔実施形態２〕
本発明の他の実施形態について、図８に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

図８は、本実施形態に係る処理実行システム１００に含まれるロボット１ａの要部構成の一例を示すブロック図である。本実施形態に係るロボット１ａは、実施形態１に係るロボット１と異なり、制御部１２に代えて制御部１２ａを備える。また新たに、外部の装置と情報の送受信を行う通信部１４を備える。

制御部１２ａは、実施形態１にて説明した音素列生成部２２を備えない。また、音声入力制御部２１および文末検知部２３に代えて、音声入力制御部２１ａおよび文末検知部２３ａを備える。

音声入力制御部２１ａは、通信部１４を介して、波形データを音素列生成装置２に出力する。また、通信部１４は、音素列生成装置２から受信した音素を音素列データ３１として記憶部１３に記憶していく処理を繰り返す。

文末検知部２３ａは、音素列生成装置２から受信した指示に従って、音声入力制御部２１から波形データを取得する。そして、該波形データを参照し、音声の入力が終了したか否かを判定する。この判定については、実施形態１で既に説明しているため、ここでの説明を省略する。文末検知部２３ａは、判定結果を音素列生成装置２に送信する。

音素列生成装置２は、実施形態１にて説明した音素列生成部２２の機能を実現する装置である。なお、図示してはいないが、音素列生成装置２はロボット１ａと無線通信を行う機能を備えており、ロボット１ａの通信部１４と情報の送受信を行うことができる。例えば、音素列生成装置２は、ロボット１ａから波形データを受信する。また、生成した音素や、文末検知部２３ａへの指示をロボット１ａに送信する。

以上のように、本実施形態に係るロボット１ａは、外部の装置である音素列生成装置２と通信可能に接続されており、音素列生成装置２が生成した音素を取得することで音素列データ３１を記憶部１３に記憶する。これにより、ロボット１ａが実行する処理を減らすことができる。なお、処理実行システム１００は、図８の例においてロボット１ａが備える部材のうち、一致率特定部２４、音素列特定部２５、および処理実行部２６を、ロボット１ａと通信可能に接続された外部の装置の制御部が備える構成としてもよい。この例の場合、該外部の装置が本発明の一態様に係る処理実行装置となる。また、図８の例においてロボット１ａが備える文末検知部２３ａおよび記憶部１３についても、外部の装置が備える構成であってもよい。文末検知部２３ａおよび記憶部１３については、上述した処理実行装置としての外部の装置（以降、処理実行装置と称する）が備える構成であってもよい。また、文末検知部２３ａおよび記憶部１３については、処理実行装置とは別の外部の装置が備え、該別の外部の装置と処理実行装置とが通信可能に接続された構成であってもよい。すなわち、ロボット１ａは、究極的には、音声入力部１１、通信部１４、および音声入力制御部２１ａのみを備える構成であってもよい。

〔実施形態３〕
本発明のさらに別の実施形態について、図９および図１０に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

図９は、本実施形態に係る処理実行システム２００に含まれるロボット１ｂおよびサーバ３の要部構成の一例を示すブロック図である。ここでは、まずサーバ３について説明した後、ロボット１ｂについて説明する。

サーバ３は、ロボット１ｂから取得した波形データに基づいて処理を行う装置である。具体的には、サーバ３は、ロボット１ｂからの指示に応じて、自然言語処理を含む音声認識を行う。サーバ３は、サーバ通信部４１、音素列生成部４２、音声認識部４３、および意図解析部４４を備える。

サーバ通信部４１は、ロボット１ｂと情報の送受信を行う。具体的には、サーバ通信部４１は、ロボット１ｂから波形データを受信する。また、生成した音素や、文末検知部２３ａへの指示をロボット１ｂに送信する。

音素列生成部４２は、実施例１にて説明した音素列生成部２２と同様に波形データから入力音素列を生成する。具体的には、音素列生成部４２は、該波形データから音素を特定し、サーバ通信部４１を介して、該音素をロボット１ｂに送信する処理を繰り返す。これにより、ロボット１ｂは音素列データ３１を取得することができる。また、音素列生成部４２は、特定した音素を音声認識部４３に出力する処理を繰り返す。これにより、音声認識部４３は音素列を取得することができる。

音声認識部４３は、取得した音素列を漢字仮名混じりの文字列に変換する。また、音声認識部４３は、必要に応じて音素列または文字列の補正を行う。これにより、音声認識部４３は例えば、「asitaabenotarukasuniikutoomoete」という音素列を、「明日アベノハルカスに行くと覚えて」と変換することができる。なお、文字列への変換には既存の技術を用いることができる。音声認識部４３は、生成した文字列を意図解析部４４へ出力する。

意図解析部４４は、音声認識部４３が生成した文字列から、利用者の意図を解析する。具体的には、意図解析部４４は、取得した文字列に対して形態素解析を行い、文字列を分解して品詞を対応付ける。次に、意図解析部４４は、形態素を分節に分け、述部と文末表現との組み合わせを示す分節情報を生成する。例えば、述部「覚え（動詞）」と文末表現「て（助詞）」との組み合わせを示す分節情報が生成される。

そして、意図解析部４４は、生成した分節情報から文字列の意図を特定する。換言すれば、意図解析部４４は、文字列の意図が「依頼」であるか否かを判定する。具体的には、サーバ３は「依頼」を示す文末表現のリスト（不図示）、および、述部の文字列とアプリケーションを示す情報とを対応付けたデータベース（不図示）を記憶している。意図解析部４４は、特定した文末表現が、上記のリストに含まれているか否かを判定する。そして、リストに含まれていると判定した場合、意図解析部４４は、上記のデータベースを参照して、述部の文字列が対応付けられたアプリケーションを示す情報を特定する。

例えば、分節情報が述部「覚え（動詞）」と文末表現「て（助詞）」との組み合わせである場合、まず文末表現「て（助詞）」が上記のリストに含まれていることが特定される。さらに、述部「覚えて」がスケジュール帳のアプリケーションを示す情報に対応付けられていることが特定される。そして、意図解析部４４は、スケジュール帳のアプリケーションを起動する指示と、音声認識部４３が生成した文字列とをロボット１ｂに送信する。ロボット１ｂの通信部１４は、受信した指示と文字列とを、記憶部１３に一時的に記憶する。

ロボット１ｂは、実施形態１にて説明したロボット１、および、実施形態２にて説明したロボット１ａと異なり、制御部１２または制御部１２ａに代えて制御部１２ｂを備える。制御部１２ｂは、音素列特定部２５および処理実行部２６に代えて、音素列特定部２５ｂおよび処理実行部２６ｂをそれぞれ備える。

音素列特定部２５ｂは、統合一致率が最も高い、第１部分音素列および第２部分音素列の組み合わせを特定したとき、該統合一致率が所定の値以上であるか否かをさらに特定する。そして、該統合一致率が所定の値に満たない場合、記憶部１３に一時的に記憶されている、サーバ３の意図解析部４４が特定したアプリケーションの起動指示と、音声認識部４３が生成した文字列とを処理実行部２６ｂに出力する。なお、統合一致率が所定の値以上の場合の処理については、実施形態１にて既に説明しているため、ここでの説明を省略する。また、サーバ３での文字列およびアプリケーションの起動指示の生成に時間がかかっているなどの要因で、記憶部１３に該文字列および該指示が記憶されていない場合、音素列特定部２５ｂは、これらの情報が記憶部１３に記憶されるまで待機する。

処理実行部２６ｂは、音素列特定部２５ｂからアプリケーションの起動指示および文字列を取得した場合、アプリケーション３５のうち、該起動指示が示すアプリケーションを特定し、起動する。そして、取得した文字列に応じた処理を実行する。例えば、処理実行部２６ｂは、スケジュール帳のアプリケーションを起動して、取得した文字列が示す日時に該文字列が示す予定を登録する。

次に、本実施形態に係る処理実行システム２００が実行する処理の流れについて、図１０に基づいて説明する。図１０は、処理実行システム２００が実行する処理の流れの一例を示すフローチャートである。なお、図１０のステップＳ１〜ステップＳ６は、実施形態１にて図７を参照して既に説明しているため、ここでの説明を省略する。

音素列特定部２５ｂは統合一致率を算出する（Ｓ１１）。具体的には、一致率ランキング３３ａにおける最も高い一致率（第１一致率）と、一致率ランキング３３ａ以外の一致率ランキング３３における最も高い一致率（第２一致率）とを合計し、統合一致率を算出する。そして、音素列特定部２５ｂは、該統合一致率が所定の値以上であるか否かを判定する（Ｓ１２）。統合一致率が所定の値以上であると判定した場合（Ｓ１２でＹＥＳ）、音素列特定部２５ｂは、最尤述部音素列と最尤単語音素列とからなる音素列（すなわち、実施形態１にて説明した補正音素列）を処理実行部２６に出力する。なお、最尤述部音素列は、一致率ランキング３３ａにおいて第１一致率に対応付けられた述部音素列である。また、最尤単語音素列は、一致率ランキング３３ａ以外の一致率ランキング３３において第２一致率に対応付けられた単語音素列である。

そして、処理実行部２６は、最尤述部音素列と最尤単語音素列からなる音素列に応じた処理を実行する（Ｓ１３）。なおステップＳ１３の処理は、実施形態１で説明したステップＳ８の処理と実質的に同一である。

一方、統合一致率が所定の値以上でないと判定した場合（Ｓ１２でＮＯ）、音素列特定部２５ｂは、サーバ３に起動するアプリケーションを特定するよう指示する。サーバ３は、該指示に従って、音声認識および意図解析を行う（Ｓ１４）。そして、音声認識によって生成された文字列と、意図解析によって特定されたアプリケーションを起動する指示とを音素列特定部２５ｂに送信する。音素列特定部２５ｂは、受信した文字列および指示を処理実行部２６ｂに出力する。

最後に、処理実行部２６ｂは、音声認識および意図解析の結果に応じた処理を実行する（Ｓ１５）。具体的には、取得した指示が示すアプリケーションを特定し、起動する。そして、取得した文字列に応じた処理を実行する。

以上のように、処理実行システム２００は、統合一致率が所定の値に満たない場合、すなわち、ユーザの指示通りの処理が実行できない可能性が高い場合、サーバ３が行った音声認識および意図解析の結果を取得し、該結果に応じた処理を実行する。これにより、ユーザの指示に応じた処理を正しく実行することができる。

（実施形態３の変形例）
サーバ３（外部の装置）はさらに、ロボット１ｂの制御部１２ｂに含まれている文末検知部２３および一致率特定部２４と同様の機能を備える文末検知部および一致率特定部（ともに不図示）を備える構成であってもよい。この構成の場合、サーバ３は、ロボット１ｂの記憶部１３に記憶されている音素列辞書３２および一致率ランキング３３と同様のデータである音素列辞書および一致率ランキング（ともに不図示）を、サーバ３の記憶部（不図示）に記憶している。

つまり、サーバ３は、ロボット１ｂと同様に、一致率ランキングを生成し、該一致率ランキングと分割パターンとをロボット１ｂに送信する。なお、一致率ランキングの生成処理については、実施形態１で説明した処理と同様であるため、ここでの説明を省略する。

ロボット１ｂの通信部１４は、サーバ３から受信した一致率ランキングおよび分割パターンと、ロボット１ｂにおいて生成された一致率ランキング３３および分割パターンとを区別して記憶部１３に記憶する。

音素列特定部２５ｂは、第１部分音素列および第２部分音素列の組み合わせにおける統合一致率が所定の値に満たない場合、記憶部１３に記憶されている、サーバ３から受信した一致率ランキングおよび分割パターンを読み出す。そして、該一致率ランキングおよび分割パターンから、統合一致率が最も高い第１部分音素列および第２部分音素列の組み合わせ（外部組み合わせ）を特定する。そして、該統合一致率が所定の値以上であるか否かを特定する。

統合一致率が所定の値以上である場合、第１部分音素列を最尤述部音素列、第２部分音素列を最尤単語音素列と特定し、該最尤述部音素列および該最尤単語音素列によって補正された補正音素列を処理実行部２６に出力する。

一方、統合一致率が所定の値に満たない場合、記憶部１３に一時的に記憶されている、サーバ３の意図解析部４４が特定したアプリケーションの起動指示と、音声認識部４３が生成した文字列とを処理実行部２６ｂに出力する。以降の処理は、実施形態３にて既に説明しているため、ここでの説明を省略する。

このように、本変形例に係るロボット１ｂは、一致率ランキング３３に基づいて特定した第１部分音素列および第２部分音素列の組み合わせにおける統合一致率が所定の値に満たない場合、統合一致率が所定の値以上であるか否かを判定する。なお、該統合一致率は、サーバ３にて生成された一致率ランキングに基づいて特定した第１部分音素列および第２部分音素列の組み合わせ（外部組み合わせ）における統合一致率である。

音素列辞書は新たな単語の登録などによって随時更新されるが、ロボット１ｂが記憶している音素列辞書３２が常に最新版であるとは限らない。音素列辞書３２が最新版でない場合、適切な分割パターンが特定できず、ユーザの意図通りの処理が実行できない可能性がある。一方、この例のように、サーバ３において一致率ランキングを生成する構成の場合、サーバ３に記憶している音素列辞書は、サーバ３の管理者によって容易に更新することができる。そのため、サーバ３は、常に最新の音素列辞書を用いて、一致率ランキングを生成することができる。ロボット１ｂは、サーバ３で生成された一致率ランキングを用いることにより、より適切な第１部分音素列および第２部分音素列の組み合わせを特定することができる。よって、実行する処理をユーザの意図通りのものとすることができる可能性が高くなる。

なお、音素列特定部２５ｂは、一致率ランキング３３に基づいて特定した第１部分音素列および第２部分音素列の組み合わせと、外部組み合わせとのうち、統合一致率が高い方を用いて補正音素列を生成する構成であってもよい。

また、サーバ３は、音声認識および意図解析に代えて、一致率ランキングを生成する構成であってもよい。この場合、サーバ３の音声認識部４３および意図解析部４４は省略される。

また、サーバ３の一致率特定部は、ロボット１ｂの一致率特定部と異なる方法で一致率を算出する構成であってもよい。例えば、サーバ３の一致率特定部は、音素列生成部４２によって生成された音素列の一部と、音素列辞書に記憶されている音素列とが所定文字数一致している場合に一致率を加算する方法を用いてもよい。

また、サーバ３の意図解析部４４は、音声認識部４３が生成した文字列から、起動するアプリケーションに実行させる処理を特定し、該処理の内容を示す情報を、アプリケーションを起動する指示とともにロボット１ｂに送信してもよい。例えば、音声認識部４３が生成した文字列が「明日アベノハルカスに行くと覚えて」である場合、「明日の予定として『アベノハルカスに行く』を登録する」という処理を示す情報を、アプリケーションを起動する指示とともにロボット１ｂに送信してもよい。この場合のアプリケーションは例えば、スケジュール帳のアプリケーションである。また、「明日の予定として『アベノハルカスに行く』を登録する」という処理を示す情報は、「『アベノハルカスに行く』を明日の予定として登録するための指示」と表現することもできる。

〔変形例〕
上述した各実施形態では、述部以外特定部２４２は、述部特定部２４１が生成した一致率ランキング３３ａのうち、一致率が最も高いレコードの分割パターンにおける前方音素列のみについて一致率ランキング３３を生成する構成であった。しかしながら、述部以外特定部２４２は、一致率ランキング３３ａに含まれるレコードの分割パターンそれぞれにおける前方音素列について、一致率ランキング３３を生成する構成であってもよい。これにより、処理に係る時間は長くなるが、音素列の特定精度を上げることができる。

また、述部以外特定部２４２は、上述した処理Ｃにおいて、第１レコードに含まれる分割パターンの後方音素列から生成された一致率ランキング３３ｃを、上述した処理Ａを行う対象の一致率ランキングとする構成であった。しかしながら、述部以外特定部２４２は、一致率ランキング３３ｃのすべてを、上述した処理Ａを行う対象の一致率ランキングとしてもよい。これにより、処理に係る時間は長くなるが、音素列の特定精度を上げることができる。

また、上述した各実施形態では、文末検知部２３および文末検知部２３ａは、取得した波形データが、音素を生成することができない波形データであるか否かを判定して、文末を検知する構成であった。しかしながら、文末検知部２３および文末検知部２３ａは、音素列生成部２２が生成した音素列を参照して文末を検知する構成であってもよい。具体的には、音素列（音素列データ３１）が所定の条件を満たす場合、文末検知部２３は音声の入力が終了したと判定する。所定の条件の一例としては、「同一の音素が所定数連続した」などが挙げられるが、この例に限定されるものではない。なお、「同一の音素が所定数連続した」ことを検知して、音声の入力が終了したと判定した場合、文末検知部２３は、該同一の音素の中の最初の音素を文末と特定する。具体的には、ユーザが「…と覚えて」という音声を入力したときに、語尾を伸ばすように発話したことによって、「…tooboeteeeeee」という音素列が生成されたとする。この場合、文末検知部２３および文末検知部２３ａは６つの「e」のうち最初の「e」を文末と特定し、以降の「eeeee」を削除する。

また、文末検知部２３および文末検知部２３ａは、上述した２つの文末検知方法を組み合わせてもよい。具体的には、波形データを参照して仮の文末を特定した後、生成された音素列データ３１が所定の条件を満たしているか否かを判定し、文末を特定してもよい。これにより、音素列データ３１から、指示に関係しない余計な音素を除くことができるので、指示の認識精度を向上させることができる。

また、述部特定部２４１は、第１部分音素列と述部音素列との一致率を算出するとき、２つの音素列の音素数の差が所定値以上である場合、一致率を最低値としてもよい。この例について、図１１に基づいて説明する。図１１は、音素数の差が所定値以上である場合、一致率を０とする例を説明する図である。図１１の例の場合、「分割パターン」のカラムに含まれる後方音素列の音素数と、「比較対象の音素列」のカラムに含まれる述部音素列の音素数との差が５以上である場合は、編集距離から一致率を算出する処理を行わず、一致率を０としている。これにより、一致率を算出する音素列の組み合わせの数を減らすことができ、処理時間の短縮を図ることができる。

また、上述した各実施形態では、ユーザが発話する音声が日本語であったため、述部特定部２４１は、音素列データ３１の後方音素列と述部音素列との一致率を算出していた。しかしながら、述部特定部２４１は、ユーザが発話する音声が、英語などの、述部が最初に発話される言語である場合、音素列データ３１の前方音素列と述部音素列とを比較する構成であってもよい。

また、第２部分音素列に含まれる単語のカテゴリの順序が予め決められていてもよい。例えば、述部音素列が「oboete」である場合、第２部分音素列は、「時制」、「場所」、「助詞」、「動作」、「助詞」の順である（例えば「明日」、「アベノハルカス」、「に」、「行く」、「と」の順）と予め決められていてもよい。これにより、第２部分音素列の各部分と単語音素列との一致率を算出するときに、参照する辞書を１つに特定することができる。

また、本発明の一態様に係る処理実行装置の構成を、既存の音声認識の結果に基づいて処理を実行する装置に組み込んでもよい。なお、既存の音声認識は特に限定されない。例えば、該音声認識は、ＦＳＴ（Finite-State Transducer；有限状態トランスデューサ）を用いて生成された音響モデルおよび言語モデルを使用するものであってもよい。なお以降、生成された音響モデルおよび言語モデルを総称して「モデル」と称する。また、この例の場合、通常の処理の実行は、入力された音声を既存の音声認識の結果に基づいて行う。そして、既存の音声認識において、モデルの修正（例えば、新たな単語の学習など）を行っている期間については、本発明の一態様に係る処理実行装置の構成を用いて、音素列に基づいて処理を実行してもよい。

上述したモデルの修正には、通常、２週間から１か月程度を要する。一方、本発明の一態様に係る処理実行装置において、上述したモデルの修正と同様の結果を得るためには、音素列辞書３２に該当する単語に相当する音素列を追加するだけでよく、短時間で終了する。よって、上記装置は、既存の音声認識のモデルの修正中であっても、あたかも修正後のモデルを使用して音声認識を行っているように動作することが可能となる。なお、上記モデルがＦＳＴを用いて生成されている場合、上記モデルの生成に用いたデータ（例えば、単語のデータ）を使用して音素列辞書３２の生成を行なうことができる。

また、処理に時間がかかると予測される場合は、述部以外特定部２４２の処理を、並列コンピューティング技術を用いて並列化することで、処理の高速化を図ってもよい。処理に時間がかかると予測される場合とは、例えば、第２部分音素列の比較対象となる単語音素列の数が多い場合や、第２部分音素列に含まれると考えられる単語の数が多い場合などである。

また、処理実行部２６がアプリケーションを起動して、補正音素列を漢字仮名混じりの文字列に変更したとき、該アプリケーションが、特定の文字列でないと処理を実行できないアプリケーションである可能性がある。例えば、スケジュール帳のアプリケーションにおいて、「明日」という文字列の場合、翌日の日付を示す文字列として特定することができるが、「次の日」という文字列の場合、翌日の日付を示す文字列として特定できない場合が考えられる。

そこで、上述した各実施形態に係るロボット１は、音素列辞書３２に格納されている音素列のうち、アプリケーションが処理を実行できない文字列を示す音素列には、アプリケーションが処理を実行可能な文字列を示す別の音素列が対応付けられていてもよい。例えば、図３の（ｂ）に示す時制辞書３２ｂにおいて、「tuginohi」という音素列に「asita」という音素列が対応付けられていてもよい。

述部特定部２４１および述部以外特定部２４２は、一致率ランキング３３を生成するとき、別の音素列が対応付けられている音素列を、特定音素列として特定した場合、該特定音素列を、上記別の音素列に置き換える。例えば、特定音素列として「tuginohi」が特定された場合、該特定音素列を、時制辞書３２ｂにおいて「tuginohi」に対応付けられている「asita」に置き換える。これにより、処理実行部２６が補正音素列を漢字仮名混じりの文字列に変更したとき、「明日」という文字列が生成されることとなるので、処理実行部２６はユーザの意図通りに、翌日の日付に予定を登録することができる。なお、実施形態３の変形例で説明した、サーバ３にて一致率ランキングを生成する構成に、この変形例を適用してもよい。

〔ソフトウェアによる実現例〕
ロボット１、１ａ、１ｂの制御ブロック（特に制御部１２、１２ａ、１２ｂ）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよい。また、上記制御ブロックは、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、ロボット１、１ａ、１ｂは、ＣＰＵ、ＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、ＲＡＭ（Random Access Memory）などを備えている。ＣＰＵは、各機能を実現するソフトウェアであるプログラムの命令を実行する。ＲＯＭまたは記憶装置には、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されている。ＲＡＭは上記プログラムを展開する。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る処理実行装置（ロボット１）は、入力された音声が示す指示に応じた処理を実行する処理実行装置であって、上記音声から生成された入力音素列の一部である第１部分音素列と、上記音声の述部候補となる複数の音素列である述部音素列のいずれかとの一致率である第１一致率を特定する第１の特定部（述部特定部２４１）と、上記入力音素列における、上記第１部分音素列以外の残部である第２部分音素列と、上記第１一致率が特定された述部音素列に応じた、上記音声の単語候補となる複数の音素列である単語音素列のいずれかとの一致率である第２一致率を特定する第２の特定部（述部以外特定部２４２）と、上記第１一致率と上記第２一致率とを統合した統合一致率が最も高い、上記第１部分音素列および上記第２部分音素列の組み合わせを特定して、上記入力音素列に含まれる上記述部音素列として最も確からしい最尤述部音素列と、上記入力音素列に含まれる上記単語音素列として最も確からしい最尤単語音素列とを特定する音素列特定部（音素列特定部２５）と、上記最尤述部音素列および上記最尤単語音素列に応じた処理を実行する処理実行部（処理実行部２６）と、を備える。

上記の構成によれば、第１部分音素列と述部音素列との第１一致率を特定し、その後に第１一致率が特定された述部音素列に応じた単語音素列と第２部分音素列との第２一致率を特定する。これにより、第２部分音素列と比較する単語音素列を絞り込むことができる。実行する処理が限定される場合（すなわち、特定の処理を実行する場合）、ユーザが発話した音声に含まれる単語のカテゴリはある程度限定される。このため、第１一致率が特定された述部音素列によって第２部分音素列と比較する単語音素列を絞り込むことにより、処理の実行に関係ない単語音素列と第２部分音素列との比較が行われなくなるので、ユーザが発話した音声に合致した単語音素列が最尤単語音素列となる可能性が高くなる。よって、実行する処理をユーザの意図通りのものとすることができる。

また、第２部分音素列と比較する単語音素列を絞り込むので、第２一致率を特定する処理に係る時間を短縮したり、処理実行装置の負担を軽くしたりすることができる。これにより、計算能力の低い装置であっても、該装置内での計算のみで、入力された音声に応じた処理の実行を実現することができる。

また、入力された音声から生成された入力音素列と、述部音素列および単語音素列との比較によって実行する処理を特定するので、既存の音声認識装置のように、音響モデルと言語モデルとを最適なものとするための準備（いわゆる、「学習」やこれらモデルの「修正」）を行う必要が無いため、該学習や修正にかかる時間、コストを削減することができる。

本発明の態様２に係る処理実行装置は、上記態様１において、上記第２の特定部は、上記第１一致率が最も高い第１部分音素列の残部である上記第２部分音素列について、上記第２一致率を特定してもよい。

上記の構成によれば、第１一致率が最も高い第１部分音素列を第２部分音素列とし、該第２部分音素列のみの第２一致率を特定する。これにより、第２一致率の特定にかかる時間をさらに短縮することができる。

本発明の態様３に係る処理実行装置は、上記態様１または２において、上記第２の特定部は、上記第２部分音素列の一部について、上記第２一致率を特定するものであるとともに、上記第２部分音素列のうち、上記第２一致率が特定されていない部分を２つに分割した前方音素列および後方音素列のそれぞれについて、上記単語音素列のいずれかとの一致率を特定して、上記前方音素列の一致率と上記後方音素列の一致率とを統合した前後統合一致率が最も高い、上記前方音素列および上記後方音素列の組み合わせを特定し、上記前後統合一致率が最も高い組み合わせの上記前方音素列の一致率を上記第２一致率として更新するとともに、上記前後統合一致率が最も高い組み合わせの上記後方音素列を上記第２一致率が特定されていない部分として更新してもよい。

上記の構成によれば、第２部分音素列の第２一致率が特定されていない部分の前方音素列と単語音素列との一致率と後方音素列と単語音素列との一致率とを算出して、２つの一致率を統合した前後統合一致率が最も高い前方音素列の一致率を第２一致率として特定し、後方音素列を第２一致率が特定されていない部分とする処理を繰り返す。つまり、第２一致率が特定された部分については、以降の第２一致率の特定には関与しない。これにより、第２部分音素列におけるすべての第２一致率の特定に係る時間を短縮することができる。

本発明の態様４に係る処理実行装置は、上記態様１から３のいずれかにおいて、上記第１の特定部は、上記第１部分音素列と上記述部音素列との音素数の差が所定値以上である場合、上記第１一致率を最低値とし、上記第２の特定部は、上記第２部分音素列と上記単語音素列との音素数の差が所定値以上である場合、上記第２一致率を最低値としてもよい。

上記の構成によれば、第１部分音素列および述部音素列、並びに、第２部分音素列および単語音素列の音素数の差が所定値以上である場合は、比較を行わずとも一致率が最低値に決まるので、処理時間を短縮することができる。

本発明の態様５に係る処理実行装置は、上記態様１から４のいずれかにおいて、上記処理実行部は、上記最尤述部音素列に応じて、処理の実行に用いるアプリケーションを特定してもよい。

上記の構成によれば、処理の実行に用いるアプリケーションは、最尤述部音素列に応じて決まる。つまり、既存の音声認識を行う装置のように、ユーザが発話した音声の意図を特定するなどの煩雑な処理を必要とせず、処理の実行に用いるアプリケーションを特定することができる。

本発明の態様６に係る処理実行装置は、上記態様１から５のいずれかにおいて、上記音素列特定部は、上記統合一致率が最も高く、かつ、該統合一致率が所定値以上の組み合わせを特定し、上記処理実行部は、上記統合一致率が所定値以上の組み合わせが無い場合、上記音声に対する自然言語処理を含む音声認識を行った結果を用いて特定した処理を実行してもよい。

上記の構成によれば、統合一致率が所定値以上の組み合わせが無い場合、自然言語処理を含む音声認識を行った結果を用いて実行する処理を特定する。これにより、ユーザの意図通りの最尤述部音素列および最尤単語音素列が特定されなかった場合でも、ユーザの意図通りの処理を実行することができる。

本発明の態様７に係る処理実行装置は、上記態様１から６のいずれかにおいて、上記音素列特定部は、外部の装置（サーバ３）によって特定された上記第１一致率、および、外部の装置によって特定された上記第２一致率を統合した上記統合一致率が最も高い、上記第１部分音素列および上記第２部分音素列の組み合わせである外部組み合わせをさらに特定し、上記外部組み合わせが、上記統合一致率が最も高い組み合わせである場合、上記外部組み合わせに基づいて、上記最尤述部音素列と上記最尤単語音素列とを特定してもよい。

上記の構成によれば、外部の装置によって特定された第１一致率および第２一致率を統合した統合一致率が最も高い組み合わせである外部組み合わせが、統合一致率が最も高い組み合わせである場合、該外部組み合わせに基づいて最尤述部音素列と最尤単語音素列とを特定する。これにより、ユーザの意図通りの処理が実行できる可能性が高くなる。

本発明の態様８に係る処理実行装置は、上記態様１から７のいずれかにおいて、上記第１の特定部は、上記入力音素列の最後の音素を含む上記第１部分音素列について、上記第１一致率を特定してもよい。

上記の構成によれば、入力音素列の最後の音素を含む第１部分音素列の第１一致率を特定する。音声が日本語などの言語の音声である場合、述部は音声の最後に来る場合が多い。このため、第１部分音素列を入力音素列の最後の音素を含む部分とすることで、入力音素列において述部に相当する可能性が高い部分を述部音素列と比較することができる。

本発明の態様９に係る処理実行装置は、上記態様１から８のいずれかにおいて、複数の上記述部音素列を、上記単語音素列のカテゴリを示すカテゴリ情報に対応付けて格納する述部音素列辞書（述部辞書３２ａ）と、上記カテゴリごとに上記単語音素列を格納する複数の単語音素列辞書（時制辞書３２ｂ、場所辞書３２ｃ、動作辞書３２ｄ）とを記憶する記憶部（記憶部１３）をさらに備え、上記第２の特定部は、上記第１一致率が特定された述部音素列に、上記述部音素列辞書にて対応付けられているカテゴリ情報を特定し、該カテゴリ情報が示す単語音素列辞書に格納されている上記単語音素列と上記第２部分音素列との上記第２一致率を特定してもよい。

上記の構成によれば、第１一致率が特定された述部音素列に対応付けられているカテゴリ情報を特定し、該カテゴリ情報が示す単語音素列辞書に格納されている単語音素列と第２部分音素列との第２一致率を比較する。これにより、第１一致率が特定された述部音素列に応じた単語音素列と第２部分音素列とを比較することができる。また、述部音素列および単語音素列は辞書データとして格納されているので、音素列を追加する場合は、適切な述部音素列辞書または単語音素列辞書に新しい音素列を追加するだけでよい。よって、新たな音素列の追加（いわゆる新たな言葉の学習）を簡単に行うことができる。

本発明の態様１０に係る処理実行装置は、上記態様１から９のいずれかにおいて、上記第１の特定部は、編集距離を用いて上記第１一致率を算出し、上記第２の特定部は、編集距離を用いて上記第２一致率を算出してもよい。

上記の構成によれば、編集距離を用いて第１一致率および第２一致率を算出するので、最尤述部音素列および最尤単語音素列を正しく特定することができる。

本発明の態様１１に係る処理実行装置の制御方法は、入力された音声が示す指示に応じた処理を実行する処理実行装置の制御方法であって、上記音声から生成された入力音素列の一部である第１部分音素列と、上記音声の述部候補となる複数の音素列である述部音素列のいずれかとの一致率である第１一致率を特定する第１の特定ステップ（ステップＳ５）と、上記入力音素列における、上記第１部分音素列以外の残部である第２部分音素列と、上記第１一致率が特定された述部音素列に応じた、上記音声の単語候補となる複数の音素列である単語音素列のいずれかとの一致率である第２一致率を特定する第２の特定ステップ（ステップＳ６）と、上記第１一致率と上記第２一致率とを統合した統合一致率が最も高い、上記第１部分音素列および上記第２部分音素列の組み合わせを特定して、上記入力音素列に含まれる上記述部音素列として最も確からしい最尤述部音素列と、上記入力音素列に含まれる上記単語音素列として最も確からしい最尤単語音素列とを特定する音素列特定ステップ（ステップＳ７）と、上記最尤述部音素列および上記最尤単語音素列に応じた処理を実行する処理実行ステップ（ステップＳ８）と、を含む。本態様に係る処理実行装置の制御方法は、態様１に係る処理実行装置と同様の作用効果を奏する。

本発明の各態様に係る処理実行装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記処理実行装置が備える各部（ソフトウェア要素）として動作させることにより上記処理実行装置をコンピュータにて実現させる処理実行装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１ロボット（処理実行装置）
１３記憶部
２５音素列特定部
２６処理実行部
３２ａ述部辞書（述部音素列辞書）
３２ｂ時制辞書（単語音素列辞書）
３２ｃ場所辞書（単語音素列辞書）
３２ｄ動作辞書（単語音素列辞書）
２４１述部特定部（第１の特定部）
２４２述部以外特定部（第２の特定部）
Ｓ５第１の特定ステップ
Ｓ６第２の特定ステップ
Ｓ７音素列特定ステップ
Ｓ８処理実行ステップ

Claims

入力された音声が示す指示に応じた処理を実行する処理実行装置であって、
上記音声から生成された入力音素列の一部である第１部分音素列と、上記音声の述部候補となる複数の音素列である述部音素列のいずれかとの一致率である第１一致率を特定する第１の特定部と、
上記入力音素列における、上記第１部分音素列以外の残部である第２部分音素列と、上記第１一致率が特定された述部音素列に応じた、上記音声の単語候補となる複数の音素列である単語音素列のいずれかとの一致率である第２一致率を特定する第２の特定部と、
上記第１一致率と上記第２一致率とを統合した統合一致率が最も高い、上記第１部分音素列および上記第２部分音素列の組み合わせを特定して、上記入力音素列に含まれる上記述部音素列として最も確からしい最尤述部音素列と、上記入力音素列に含まれる上記単語音素列として最も確からしい最尤単語音素列とを特定する音素列特定部と、
上記最尤述部音素列および上記最尤単語音素列に応じた処理を実行する処理実行部と、を備える処理実行装置。
上記第２の特定部は、上記第１一致率が最も高い第１部分音素列の残部である上記第２部分音素列について、上記第２一致率を特定することを特徴とする請求項１に記載の処理実行装置。
上記第２の特定部は、上記第２部分音素列の一部について、上記第２一致率を特定するものであるとともに、
上記第２部分音素列のうち、上記第２一致率が特定されていない部分を２つに分割した前方音素列および後方音素列のそれぞれについて、上記単語音素列のいずれかとの一致率を特定して、上記前方音素列の一致率と上記後方音素列の一致率とを統合した前後統合一致率が最も高い、上記前方音素列および上記後方音素列の組み合わせを特定し、
上記前後統合一致率が最も高い組み合わせの上記前方音素列の一致率を上記第２一致率として更新するとともに、上記前後統合一致率が最も高い組み合わせの上記後方音素列を上記第２一致率が特定されていない部分として更新することを特徴とする請求項１または２に記載の処理実行装置。
上記第１の特定部は、上記第１部分音素列と上記述部音素列との音素数の差が所定値以上である場合、上記第１一致率を最低値とし、
上記第２の特定部は、上記第２部分音素列と上記単語音素列との音素数の差が所定値以上である場合、上記第２一致率を最低値とすることを特徴とする請求項１から３のいずれか１項に記載の処理実行装置。
上記処理実行部は、上記最尤述部音素列に応じて、処理の実行に用いるアプリケーションを特定することを特徴とする請求項１から４のいずれか１項に記載の処理実行装置。
上記音素列特定部は、上記統合一致率が最も高く、かつ、該統合一致率が所定値以上の組み合わせを特定し、
上記処理実行部は、上記統合一致率が所定値以上の組み合わせが無い場合、上記音声に対する自然言語処理を含む音声認識を行った結果を用いて特定した処理を実行することを特徴とする請求項１から５のいずれか１項に記載の処理実行装置。
上記音素列特定部は、
外部の装置によって特定された上記第１一致率、および、外部の装置によって特定された上記第２一致率を統合した上記統合一致率が最も高い、上記第１部分音素列および上記第２部分音素列の組み合わせである外部組み合わせをさらに特定し、
上記外部組み合わせが、上記統合一致率が最も高い組み合わせである場合、上記外部組み合わせに基づいて、上記最尤述部音素列と上記最尤単語音素列とを特定することを特徴とする請求項１から６のいずれか１項に記載の処理実行装置。
上記第１の特定部は、上記入力音素列の最後の音素を含む上記第１部分音素列について、上記第１一致率を特定することを特徴とする請求項１から７のいずれか１項に記載の処理実行装置。
複数の上記述部音素列を、上記単語音素列のカテゴリを示すカテゴリ情報に対応付けて格納する述部音素列辞書と、上記カテゴリごとに上記単語音素列を格納する複数の単語音素列辞書とを記憶する記憶部をさらに備え、
上記第２の特定部は、上記第１一致率が特定された述部音素列に、上記述部音素列辞書にて対応付けられているカテゴリ情報を特定し、該カテゴリ情報が示す単語音素列辞書に格納されている上記単語音素列と上記第２部分音素列との上記第２一致率を特定することを特徴とする請求項１から８のいずれか１項に記載の処理実行装置。
上記第１部分音素列および上記第２部分音素列の組み合わせとして、上記入力音素列における分割箇所を異ならせた複数の組み合わせがあり、
上記第１の特定部は、複数の上記第１部分音素列の各々について、上記第１一致率を特定することを特徴とする請求項１から９のいずれか１項に記載の処理実行装置。
入力された音声が示す指示に応じた処理を実行する処理実行装置の制御方法であって、
上記音声から生成された入力音素列の一部である第１部分音素列と、上記音声の述部候補となる複数の音素列である述部音素列のいずれかとの一致率である第１一致率を特定する第１の特定ステップと、
上記入力音素列における、上記第１部分音素列以外の残部である第２部分音素列と、上記第１一致率が特定された述部音素列に応じた、上記音声の単語候補となる複数の音素列である単語音素列のいずれかとの一致率である第２一致率を特定する第２の特定ステップと、
上記第１一致率と上記第２一致率とを統合した統合一致率が最も高い、上記第１部分音素列および上記第２部分音素列の組み合わせを特定して、上記入力音素列に含まれる上記述部音素列として最も確からしい最尤述部音素列と、上記入力音素列に含まれる上記単語音素列として最も確からしい最尤単語音素列とを特定する音素列特定ステップと、
上記最尤述部音素列および上記最尤単語音素列に応じた処理を実行する処理実行ステップと、を含む処理実行装置の制御方法。
請求項１に記載の処理実行装置としてコンピュータを機能させるための制御プログラムであって、上記第１の特定部、上記第２の特定部、上記音素列特定部、および上記処理実行部としてコンピュータを機能させるための制御プログラム。