JP5819261B2

JP5819261B2 - 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム

Info

Publication number: JP5819261B2
Application number: JP2012137844A
Authority: JP
Inventors: 孝輔辻野
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-06-19
Filing date: 2012-06-19
Publication date: 2015-11-18
Anticipated expiration: 2032-06-19
Also published as: CN104335160B; US20150142448A1; US9361063B2; EP2863300A1; CN104335160A; WO2013190957A1; JP2014002586A; EP2863300B1; EP2863300A4

Description

本発明は、１つ以上の機能を実行することができる機能実行指示システム、機能実行指示方法及び機能実行指示プログラムに関する。

従来から、ユーザの音声を認識して、認識した音声に基づいて機能を実行するシステムが知られている。例えば特許文献１には、ユーザの音声の認識結果に動詞や感情を表現する単語が含まれているか否かを判定して、判定に応じた応答を生成することが記載されている。

特開２００９−１９８８７１号公報

しかしながら、ユーザの音声の認識結果に動詞や感情を表現する単語を抽出するだけでは、必ずしも適切な機能を実行できない場合がある。例えば、ユーザの発話が「明日の天気」であった場合、ユーザは天気予報を参照したいと考えられ、天気予報の機能を実行することが望ましい。しかし、日にちを表す単語とスケジューラの機能とが対応付けられていた場合、「明日」という日にちを表す単語が含まれているためスケジューラが実行（起動）されてしまう。即ち、誤判定が生じる。

また、動詞と機能とが対応付けられており、ユーザの発話が「コンサートを聞きに行く予定を作る」であった場合、「聞き」と「行く」と「作る」との複数の動詞が含まれている。このような場合、何れの動詞に対応付けられた機能を起動すべきか適切に判定することができない。

本発明は、上記の問題点に鑑みてなされたものであり、複数の単語による機能の実行を適切に行うことができる機能実行指示システム、機能実行指示方法及び機能実行指示プログラムを提供することを目的とする。

上記の目的を達成するために、本発明に係る機能実行指示システムは、１つ以上の機能の実行を指示する機能実行指示手段と、順序付けされた複数の単語を含む情報を入力する単語入力手段と、単語入力手段によって入力された単語の順序に基づいて、１つ以上の機能から機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、を備える。

本発明に係る機能実行指示システムでは、入力された単語の順序を考慮して、実行が指示される機能が決定される。そのため、機能を決定するために用いる単語が順序に応じて適切に用いられる。これにより、本発明に係る機能実行指示システムによれば、複数の単語による機能の実行を適切に行うことができる。

実行機能決定手段は、１つ以上の機能と予め設定された単語との対応付けを記憶しておき、単語入力手段によって入力された単語から予め設定された単語を抽出し、当該対応付けと抽出した単語の単語入力手段によって入力された際の順序とに基づいて、１つ以上の機能から機能実行指示手段によって実行が指示される機能を決定することとしてもよい。この構成によれば、例えば、入力された単語に実行が指示される機能を判断するための複数の動詞が含まれていた場合でも、適切に実行が指示される機能を判断することができる。予め設定された単語は動詞であることとしてもよい。

実行機能決定手段は、１つ以上の機能毎に単語のスコアを記憶しておき、単語入力手段によって入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて１つ以上の機能から機能実行指示手段によって実行が指示される機能を決定する。この構成によれば、同一の単語でも単語の順序によって、機能を決定する上で適切に考慮される。従って、複数の単語による適切な機能の実行を確実に行うことができる。

機能実行指示システムは、音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を単語入力手段に入力する音声認識手段を更に備えることとしてもよい。この構成によれば、ユーザの音声によって機能を実行することが可能となる。

ところで、本発明は、上記のように機能実行指示システムの発明として記述できる他に、以下のように機能実行指示方法及び機能実行指示プログラムの発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。

即ち、本発明に係る機能実行指示方法は、１つ以上の機能毎に単語のスコアを記憶した機能実行指示システムの動作方法である機能実行指示方法であって、１つ以上の機能の実行を指示する機能実行指示ステップと、順序付けされた複数の単語を含む情報を入力する単語入力ステップと、単語入力ステップにおいて入力された単語の順序に基づいて、１つ以上の機能から機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、を含み、実行機能決定ステップにおいて、単語入力ステップにおいて入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて１つ以上の機能から機能実行指示ステップにおいて実行が指示される機能を決定する。

また、本発明に係る機能実行指示プログラムは、コンピュータを、１つ以上の機能の実行を指示する機能実行指示手段と、順序付けされた複数の単語を含む情報を入力する単語入力手段と、単語入力手段によって入力された単語の順序に基づいて、１つ以上の機能から機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、をして機能させ、実行機能決定手段は、１つ以上の機能毎に単語のスコアを記憶しておき、単語入力手段によって入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて１つ以上の機能から機能実行指示手段によって実行が指示される機能を決定する。

本発明では、入力された単語の順序に基づいて、実行が指示される機能が決定されるため、機能を決定するために用いる単語が順序に応じて適切に用いられる。これにより、本発明によれば、複数の単語による機能の実行を適切に行うことができる。

本発明の実施形態に係る機能実行指示システムの構成を示す図である。ユーザの発話が「明日の天気」であった場合のタスク毎のスコアを示す表である。ユーザの発話が「ｗｅａｔｈｅｒｔｏｍｏｒｒｏｗ」であった場合のタスク毎のスコアを示す表である。本発明の実施形態に係る機能実行指示システムを構成する機能実行指示サーバ及び音声認識サーバのハードウェア構成を示す図である。本発明の実施形態に係る機能実行指示システムで実行される処理（機能実行指示方法）を示すフローチャートである。本発明の実施形態に係る機能実行指示プログラムの構成を、記録媒体と共に示す図である。

以下、図面と共に本発明に係る機能実行指示システム、機能実行指示方法及び機能実行指示プログラムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１に本実施形態に係る機能実行指示システム１を示す。機能実行指示システム１は、機能実行指示サーバ１０と音声認識サーバ２０とを備えて構成される。機能実行指示システム１は、通信端末３０に対して予め設定された１つ以上の機能の実行を指示するシステムである。機能実行指示システム１から通信端末３０に対して実行が指示される機能は、例えば、乗換案内、グルメ検索、画像検索、音楽検索、音楽プレーヤ、スケジューラ、メール、メモ、ルート案内、地図検索が相当する。なお、本実施形態では、実行される機能をタスクと呼ぶ。具体的には、乗換案内、グルメ検索、画像検索、音楽検索、地図検索に関しては、例えば、通信端末３０において案内や検索結果の情報が表示出力される。

通信端末３０は、通信網（例えば、移動体通信網）を介して機能実行指示サーバ１０及び音声認識サーバ２０等と通信を行うことができる装置であり、例えば、携帯電話機やＰＣ（Personal Computer）に相当する。上記のタスクは、ユーザの音声をトリガとして実行されるため、通信端末３０はユーザの音声を入力する機能を有している。また、通信端末３０は、機能実行指示システム１からの指示を受けてタスクを実行する機能、例えば、情報の受信機能、情報処理機能及び表示機能等を有している。

即ち、通信端末３０は、１つ以上の（あるいは複数の）タスクを実行する機能実行手段を有している。具体的には、通信端末３０は、タスクに対応するアプリケーションプログラムを予め記憶しておき、記憶したアプリケーションプログラムを実行（起動）することによってタスクを実行する。通信端末３０によって実行されるタスクは、後述するように機能実行指示サーバ１０によって指示される。また、タスクの実行は、アプリケーションを実行する以外にも、ネットワークからタスクに応じた情報を取得することで行われてもよい。

機能実行指示システム１による通信端末３０に対するタスクの実行の指示は、次のように行われる。まず、通信端末３０がユーザの音声を入力する。入力された音声は、通信端末３０から音声認識サーバ２０に送信される。音声認識サーバ２０は、通信端末３０から音声を受信し、受信した音声に対して音声認識を行う。音声認識サーバ２０は、音声認識の結果である文章あるいは単語の集合を通信端末３０に送信する。通信端末３０は、音声認識の結果を受信して、更に機能実行指示サーバ１０に送信する。機能実行指示サーバ１０は、当該音声認識の結果を受信して、その音声認識の結果に基づいて実行すべきタスクを決定して、当該タスクを実行するように通信端末３０に指示する。例えば、機能実行指示サーバ１０は、実行すべきタスクを示す情報を通信端末３０に送信する。通信端末３０は、機能実行指示サーバ１０からの指示を受信して、当該指示に応じたタスクを実行する。なお、音声認識の結果である文章あるいは単語の集合はいったん通信端末３０に送られることなく、音声認識サーバ２０から機能実行指示サーバ１０へ直接送信されてもよい。更に、機能実行指示サーバ１０と音声認識サーバ２０は一体であってもよい。

例えば、通信端末３０のユーザが「明日の天気」と発話した場合には、機能実行指示サーバ１０において、通信端末３０の現在位置の明日の天気を調べるタスク（天気予報のタスク）が実行されるものと判断されて、天気予報のタスクの実行が通信端末３０に指示される。なお、上記のように天気予報のタスクが実行される場合には、そのタスクの実行の際に通信端末３０の現在位置の取得が行われる。このように、タスクによっては必要に応じて付加的な情報の取得が行われる。

なお、音声認識の結果である文章あるいは単語の集合は、より詳細には後述するように順序付けされた複数の単語を含む情報である。即ち、それらに含まれる複数の単語の順序（順番、文章中の位置）が分かるような情報である。以上が、本実施形態に係る機能実行指示システム１の概要である。

引き続いて、本実施形態に係る機能実行指示システム１の機能について説明する。音声認識サーバ２０は、音声を入力して、入力した音声に対して音声認識を行い、音声認識を行った結果を出力する音声認識手段である装置である。具体的には、上述したように音声認識サーバ２０は、通信端末３０から音声データを受信する。音声認識サーバ２０は、音声認識エンジンを有しており、当該音声認識エンジンを用いて音声認識を行う。音声認識自体は、従来の任意の音声認識方法を利用することができる。音声認識サーバ２０は、音声認識結果を単語の集合（複数の単語からなる単語群）あるいは文章として取得して、通信端末３０に送信する。ここで、音声認識結果は、それに含まれる単語の順序を特定することができる情報である。例えば、音声認識結果は、その音声認識結果に含まれる単語が順序に従って連続的に並べられた情報である。

図１に示すように、機能実行指示サーバ１０は、機能実行指示部１１と、単語入力部１２と、実行機能決定部１３とを備えて構成される。

機能実行指示部１１は、通信端末３０に対して、１つあるいは複数のタスクの実行を指示する機能実行指示手段である。具体的には、機能実行指示部１１は、タスクを実行させるコマンドを通信端末３０に送信することでタスクの実行を指示する。機能実行指示部１１によって実行が指示されるタスクは、後述するように実行機能決定部１３によって決定される。

また、実行が指示されるタスクには、単語を入力（引数）とする機能がある。これをタスクのスロットと呼ぶ。スロットは予め定められている。例えば、天気予報のタスクであれば、対象となる時刻（今日、明日、一週間）や対象となる地域を入力するスロットが設けられている。なお、タスクには０個以上のスロットが定義されている。即ち、スロットがないタスクもある。また、各スロットには、スロットへの単語の入力が無かった場合に予め設定された単語（デフォルトの単語）が入力されるかを示す情報が対応付けられていてもよい。例えば、天気予報の場合は、対象となる地域については、ＧＰＳ（Global Positioning System）等で取得されるユーザの現在位置をデフォルトの単語として入力することとしてもよい。

単語入力部１２は、順序付けされた複数の単語を含む情報を入力する単語入力手段である。具体的には、単語入力部１２は、通信端末３０から、音声認識サーバ２０による音声認識の結果である順序付けされた複数の単語を示す情報を受信することで上記の情報を入力する。あるいは、音声認識サーバ２０による音声認識の結果が文章（入力文）である場合には、単語入力部１２は、文章を受信して、文章から単語を抽出する、又は文章を単語に切り分けることで単語を取得すると共に単語の順序を特定する。なお、文章から単語を取得する方法は、形態素辞書を用いた形態素解析等の従来の任意の方法を用いることができる。単語入力部１２に入力される単語は、通信端末３０に対するユーザの発話単位である。即ち、一回の発話に含まれる単語群を一つの単位として扱う。単語入力部１２は、取得した順序付けされた複数の単語を示す情報を実行機能決定部１３に入力する。

実行機能決定部１３は、単語入力部１２によって入力された単語の順序に基づいて、機能実行指示部１１によって実行が指示されるタスクを決定する実行機能決定手段である。例えば、実行機能決定部１３は、タスクと予め設定された単語との対応付けを記憶しておき、その対応付けと順序付けされた単語とから実行が指示されるタスクを決定する。具体的には、実行機能決定部１３は、タスク毎に単語のスコアを記憶しておく。タスク毎の単語のスコアとは、例えば、「スケジューラ」のタスクでは、「明日」という単語には３５０のスコアが対応付けられている。また、「天気予報」のタスクでは、「明日」という単語には１００のスコアが、「天気」という単語には２００のスコアがそれぞれ対応付けられている。実行機能決定部１３は、入力された単語に当該単語の順序に応じた重み付けを行い、その重み付けを考慮してユーザの発話単位で入力された単語群のスコアを特定して、特定したスコアに基づいて実行されるタスクを決定する。この重み付けは予め設定されて、実行機能決定部１３に記憶されている。重み付けは、単語数や入力された単語の言語に応じたものとなっていてもよい。これらの対応付け及び重み付けを示す情報は、例えば、予め機能実行指示システム１の管理者等によって機能実行指示サーバ１０に入力されて記憶されている。

例えば、ユーザの発話が「明日の天気」であったとする。この場合、図２に示すように、ユーザの発話は、「明日」、「の」、「天気」という順序で３つの単語に分けられる。３つの単語の場合、位置による重みは、例えば、図２（ａ）に示すように最初の単語が０．６、次の単語が０．８、最後の単語が１．０と予め設定されている。日本語の場合、文章の中でより後の方に重要な単語が位置することが多いため、後ろの単語をより重い重みとすることが望ましい。ユーザの発話が「明日の天気」である場合、ユーザは天気を知りたいと考えられるため、前に位置する「明日」という単語よりも後ろに位置する「天気」という単語の方が重要である。

そして、タスク毎に上記の対応付けに基づいて、各単語のスコアが特定されて、そのスコアに単語の位置による重みが掛けられて、それらが合計されてタスク毎のスコアが算出される。図２（ａ）に示すように各単語の重み付けされたスコアを特定し、それらを合計することで各タスク（図２（ａ）の例では「スケジューラ」、「天気予報」のタスク）のスコアが合計される。タスク毎の単語のスコアは、タスクとの関連度合に応じて定められている。なお、タスク毎の単語のスコアは、個々の単語毎でなく、単語をカテゴリ分けしてカテゴリ単位で（カテゴリ毎に）定められていてもよい。例えば、「乗換案内」にタスクに、駅のカテゴリ（駅名からなる単語の集合）にスコアが対応付けられていてもよい。この場合、ユーザの発話に含まれる各単語がどのカテゴリに属するかを特定し、特定したカテゴリとタスク毎に対応づけられたカテゴリの比較によりスコアを算出する。

実行機能決定部１３は、例えば、スコアが最も高いタスクを、機能実行指示部１１によって実行が指示されるタスクとして決定する（あるいは、実行が指示されるタスク候補とする）。図２（ａ）に示す例の場合は、「天気予報」のタスクのスコアが２６０であり、「スケジューラ」のタスクのスコアが２１０であるため、スコアが高い「天気予報」のタスクを実行が指示されるタスクとして決定する。実行機能決定部１３は、機能実行指示部１１に対して、決定したタスクを通知する。この通知がされると、機能実行指示部１１から通信端末３０に対してタスクの実行が指示される。

また、この指示の際に、単語入力部１２によって入力された単語のうち、実行されるタスクのスロットへの入力となる単語（カテゴリに入力しえる単語）も合わせて通知することとしてもよい。スロットへの入力となる単語も、機能実行指示部１１から通信端末３０に対してタスクの実行の指示と合わせて送信される。例えば、「明日の天気」という発話によって「天気予報」のタスクが実行される場合には、天気予報の対象となる時刻を示す「明日」という単語が、「天気予報」のスロットの入力とされる。また、天気予報の対象となる地域のスロットには、ユーザの現在位置がデフォルトの単語として入力されてもよい。これにより、ユーザの現在位置の明日の天気が検索されて、その結果がユーザに提示される。なお、タスクの実行の上でスロットへの入力が不足している場合には、その時点でユーザにスロットへの入力を促して、改めてスロットに入力する単語を入力することとしてもよい。

上記のように、実行機能決定部１３は、実行されるタスクを決定するために単語毎に重み付けされたスコアを算出する。ここで、単語の位置毎に重み付けがなされずにスコアが算出される例を考える。図２（ｂ）に、図２（ａ）に示したスコア算出の例に対して重み付けがされないでスコアが算出される例（本実施形態の比較例）を示す。図２（ｂ）に示すように重み付けがされない場合、「スケジューラ」のタスクのスコアが３５０となり、「天気予報」のタスクのスコアが３００となる。この場合、「スケジューラ」のタスクのスコアが高くなり、「スケジューラ」の方が実行されるタスクとして決定されてしまうこととなる。上述したように「明日の天気」とユーザが発話した場合、ユーザは天気を知りたいと考えられるため、位置による重みを付けないスコアを用いた場合は適切なタスクを実行することができない（誤判定が生じる）。

なお、上記の例では「明日」という単語自体の「スケジューラ」でのスコアが高かったため上記の結果になったとも考えられる。しかしながら、「ゴルフの結果」という発話に対してはスポーツニュース検索が実行され、「明日はゴルフ」という発話に対してはスケジューラが実行されるようにするためには「明日」という単語の「スケジューラ」でのスコアは高いものにしておく必要がある。従って、本実施形態のように重み付けをせずに、単に単語のスコアの組み合わせ（調整）をするだけでは誤判定が避けられない。即ち、本実施形態のように単語の位置（単語の順序）を考慮した重み付けを行うことで適切に実行が指示されるタスクを判断できる。

図３に別の例を示す。例えば、ユーザの発話が「ｗｅａｔｈｅｒｔｏｍｏｒｒｏｗ」であったとする。この場合、図２に示すように、ユーザの発話は、「ｗｅａｔｈｅｒ」、「ｔｏｍｏｒｒｏｗ」という順序で２つの単語に分けられる。この例の場合、単語の数は２つで言語が英語である。この場合、位置による重みは、例えば、図３（ａ）に示すように最初の単語が１．０、最後の単語が０．５と予め設定されている。英語（西欧言語）の場合、日本語とは異なり、文章の中でより前の方に重要な単語が位置することが多いため、前の単語をより重い重みとすることが望ましい。ユーザの発話が「ｗｅａｔｈｅｒｔｏｍｏｒｒｏｗ」である場合、日本語の例の場合と同様にユーザは天気を知りたいと考えられるため、後ろに位置する「ｔｏｍｏｒｒｏｗ」という単語よりも後ろに位置する「ｗｅａｔｈｅｒ」という単語の方が重要である。

この場合（本実施形態の例）、図３（ａ）に示すように、「天気予報」のタスクのスコアが２５０であり、「スケジューラ」のタスクのスコアが１７５であるため、スコアが高い「天気予報」のタスクが実行指示されるタスクとして決定される。即ち、この場合、適切に実行されるタスクが判断される。

一方で、単語の位置毎に重み付けがなされずにスコアが算出される場合（本実施形態の比較例）は、図３（ｂ）に示すように「スケジューラ」のタスクのスコアが３５０となり、「天気予報」のタスクのスコアが３００となる。この場合、「スケジューラ」のタスクのスコアが高くなり、「スケジューラ」の方が実行されるタスクとして決定されてしまうこととなる。このように、この例でも位置による重みを付けないスコアを用いた場合は適切なタスクを実行指示することができない（誤判定が生じる）。以上が単語の順序に応じた重み付けに基づいて、実行が指示されるタスクを決定する実行機能決定部１３の機能である。

また、実行機能決定部１３は、以下のように実行が指示されるタスクを決定することとしてもよい。実行機能決定部１３は、タスクと予め設定された単語との対応付けを記憶しておく。予め設定された単語とは、例えば、動詞等の予め設定された種別の単語である。各タスクには、それぞれのタスクに関連が深い動詞やタスクを表す動詞が対応付けられる。画像検索や各種検索のタスクには、「見る（ｗａｔｃｈ，ｌｏｏｋ…）」という動詞が対応付けられている。音楽検索や音楽プレーヤのタスクには、「聞く（ｈｅａｒ，ｌｉｓｔｅｎｔｏ…）」という動詞が対応付けられている。スケジューラ、メール、メモのタスクには、「作る（ｍａｋｅ，ｃｏｏｋ，ｃｒｅａｔｅ，ｗｒｉｔｅ…）」という動詞が対応付けられている。ルート案内、乗換案内のタスクには、「行く（ｇｏ）」という動詞が対応付けられている。なお、１つのタスクの複数の動詞が対応付けられていてもよいし、１つの動詞が複数のタスクに対応付けられていてもよい。これらの対応付けを示す情報は、例えば、予め機能実行指示システム１の管理者等によって機能実行指示サーバ１０に入力されて記憶されている。

実行機能決定部１３は、単語入力部１２によって入力された単語から、上記の予め設定された単語（動詞）を抽出する。実行機能決定部１３は、抽出した単語のうち予め設定された順序の単語と上記の対応付けとに基づいて、機能実行指示部１１によって実行が指示されるタスクを決定する。具体的には、複数の動詞が抽出された場合、その複数の単語の中から、単語の順序に基づいてタスクの決定に利用する単語を決定する。この決定は、入力された単語の言語に応じたものとなっていてもよい。

入力された単語が日本語であった場合、抽出された動詞のうち、順序が最も後の動詞（最後に出てきた独立語）をタスクの決定に利用する単語とする。例えば、ユーザの発話が「コンサートを聞きに行く予定を作る」であった場合、「聞き」、「行く」、「作る」という３つの動詞が抽出される。このうち、順序が最も後の動詞である「作る」がタスクの決定に利用する単語とされる。なお、抽出された動詞が１つであった場合には、その１つの単語をタスクの決定に利用する単語とする。

実行機能決定部１３は、タスクの決定に利用するとされた動詞に対応付けられたタスクを決定するタスクとする。なお、１つの動詞に複数のタスクが対応づけられていた場合には、それら複数のタスクを実行される候補として、その候補の中から別の方法で実行が指示されるタスクを決定する。例えば、それらの候補に対して、上述した単語に基づくスコアを算出して、スコアに基づいて実行されるタスクを決定する。上記の例の場合、「作る」に対応付けられた、「スケジューラ」、「メール」、「メモ」のタスクが実行される候補と決定される。

上記の例のように日本語の場合、通常、文章の意図に最も関係が深い動詞は最後に出てきた動詞である。このように、最後に出てきた動詞を文章（ユーザの発話）が意図するメインのアクションと判定することで、実行を指示するタスクの判定精度を高めることができる。

一方、英語（西欧言語）の場合、最初に出てきた動詞（独立語）をタスクの決定に利用する動詞とする。英語の場合、通常、文章の意図に最も関係が深い動詞は最初に出てきた動詞であるためである。例えば、ユーザの発話が「Ｍａｋｅａｓｃｈｅｄｕｌｅｔｏｇｏａｃｏｎｃｅｒｔ．」であった場合、「Ｍａｋｅ」、「ｇｏ」という２つの動詞が抽出されるが、最初に出てきた「Ｍａｋｅ」をタスクの決定に利用することで、ｇｏに対応付けられたルート案内等のタスクでなく、予定の作成等のタスクと判断することができる。

なお、上記の判断は、動詞以外の単語が用いられて行われてもよい。具体的にはタスクに密接に関わるキーワード（強いキーワード）を上記の動詞と同様に予め設定しておき、それを抽出して最後に出てきた単語（日本語の場合）でタスクを決定してもよい。例えば、ユーザの発話が「圧力鍋のレシピ本がみたいなぁ」であった場合、タスクに密接に関わるキーワードとして「レシピ」、「本」という２つの単語が抽出される。「レシピ」は「レシピ検索」のタスクに、「本」は「書籍検索」タスクにそれぞれ対応付いている単語（キーワード）である。上記のユーザの発話は、本の検索を意図するものであり、上記の単語のうち、最後のキーワード「本」がその前のキーワード「レシピ」より優先される。また、強いキーワードとしては、上記以外にも「乗換案内」のタスクに対する「乗換」という単語がある。以上が予め設定された単語の順序に応じてタスクの決定に用いる単語を決定して、実行が指示されるタスクを決定する実行機能決定部１３の機能である。以上が、本実施形態に係る機能実行指示システム１の機能構成である。

図４に本実施形態に係る機能実行指示サーバ１０及び音声認識サーバ２０を構成するサーバ装置のハードウェア構成を示す。図４に示すように当該サーバ装置は、ＣＰＵ（Central Processing Unit）１０１、主記憶装置であるＲＡＭ（RandomAccess Memory）１０２及びＲＯＭ（Read Only Memory）１０３、通信を行うための通信モジュール１０４、並びにハードディスク等の補助記憶装置１０５等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した機能実行指示サーバ１０及び音声認識サーバ２０の機能が発揮される。以上が、本実施形態に係る機能実行指示システム１の構成である。

引き続いて、図５のフローチャートを用いて、本実施形態に係る機能実行指示システム１で実行される処理である機能実行指示方法を説明する。本処理では、まず、本実施形態に係る機能実行指示システム１による機能実行の指示を受けるための通信端末３０に対するユーザの操作が行われて、通信端末３０に、機能を実行させるためのユーザの音声（発話）が入力される。続いて、当該音声が通信端末３０から音声認識サーバ２０に送信される。音声認識サーバ２０では、当該音声が受信されて入力される（Ｓ０１、音声認識ステップ）。続いて、音声認識サーバ２０では、入力された音声に対して音声認識が行われる（Ｓ０２、音声認識ステップ）。音声認識結果である単語の集合あるいは文章を示す情報が音声認識サーバ２０から通信端末３０に送信される。単語の集合あるいは文章を示す情報は、単語が順序付けされたものである。通信端末３０では、その情報が受信されて、機能実行指示サーバ１０に送信される。

機能実行指示サーバ１０では、単語入力部１２によって、音声認識結果である順序付けされた複数の単語を含む情報が受信されて入力される（Ｓ０３、単語入力ステップ）。入力された情報は、単語入力部１２から実行機能決定部１３に出力される。続いて、実行機能決定部１３によって、入力された情報に含まれる順序付けされた複数の単語に、予め設定された強いキーワードが含まれるか否かが判断される（強いキーワードが抽出される）（Ｓ０４、実行機能決定ステップ）。強いキーワードが含まれていると判断された場合（Ｓ０４のＹＥＳ）、当該強いキーワードに対応付けられたタスクが実行指示されるタスクとして決定される（Ｓ０７、実行機能決定ステップ）。なお、入力された単語に複数の強いキーワードが含まれていた場合、それらのキーワードから、単語の順序に基づいて実行指示されるタスクの決定に用いられるキーワードが決定される。

強いキーワードが含まれていないと判断された場合（Ｓ０４のＮＯ）、続いて、実行機能決定部１３によって、入力された情報に含まれる順序付けされた複数の単語から予め設定された動詞が抽出される。抽出された動詞に対応付けられた動詞が、実行指示されるタスクの候補として決定される（実行タスクの候補が限定される）（Ｓ０５、実行機能決定ステップ）。なお、入力された単語に複数の動詞が含まれていた場合、それらの動詞から、単語の順序に基づいて実行指示されるタスクの決定に用いられる動詞が決定される。また、入力された単語に予め設定された動詞が含まれない場合、実行が指示されるタスクの候補の限定は行われず、全てのタスクが実行指示されるタスクの候補とされる。

続いて、実行機能決定部１３によって、実行指示されるタスクの候補とされたタスクについて、タスク毎のスコアが算出される（Ｓ０６、実行機能決定ステップ）。タスク毎のスコアは、図２及び図３を用いて説明したように、入力された単語に基づいて単語の順序に基づいて重み付けされて算出される。続いて、実行機能決定部１３によって、最も高いスコアのタスクが実行指示されるタスクとして決定される（Ｓ０７、実行機能決定ステップ）

続いて、決定したタスクの実行を指示するように実行機能決定部１３から機能実行指示部１１に指示が行われる。この際、タスクのスロットに入力される単語も合わせて機能実行指示部１１に出力される。続いて、指示を受けた機能実行指示部１１によって通信端末３０に対してタスクの実行が指示される（Ｓ０８、機能実行指示ステップ）。通信端末３０では、この指示が受け付けられ、指示に係るタスクが実行される。以上が本実施形態に係る機能実行指示システム１で実行される処理である機能実行指示方法である。

上述したように本実施形態では、入力された単語の順序に基づいて、実行が指示されるタスクが決定される。そのため、タスクを決定するために用いる単語が順序に応じてユーザの意図が考慮されて適切に用いられる。これにより、本実施形態によれば、複数の単語による機能の実行を適切に行うことができる。

より具体的には、本実施形態のように単語の順序に応じた単語の重み付けを行って、実行が指示されるタスクを決定することとするのがよい。この構成によれば、同一の単語でも単語の順序によって、タスクを決定する上で適切に考慮される。従って、複数の単語による適切なタスクの実行を確実に行うことができる。即ち、ユーザの意図に沿ったタスクを実行することができる。例えば、上述した「明日の天気」の例で説明したように、ユーザに意図に沿わない「スケジュール」のタスクが実行されることを防止し、ユーザの意図に沿った「天気予報」のタスクが実行される。

また、本実施形態のように動詞等の予め設定した特定の単語を抽出して、抽出した単語のうち、単語の順序に応じて実行が指示されるタスクを決定する単語を決めることとするのがよい。この構成によれば、例えば、入力された単語に実行を指示するタスクを判断するための複数の動詞が含まれていた場合でも、適切に実行を指示するタスクを判断することができる。即ち、ユーザの意図に沿ったタスクを実行することができる。例えば、上述した「コンサートを聞きに行く予定を作る」の例で説明したように、ユーザの意図に沿った「スケジューラ」のタスクを含むタスクを実行が指示されるタスクの候補とすることができる。あるいは、強いキーワードを用いて実行が指示されるタスクを決定する場合にも、ユーザの意図に沿ったタスクを決定することができる。

また、本実施形態のように音声を入力して音声認識を行って、音声認識結果を入力される単語を含む情報とすることとしてもよい。この構成によれば、ユーザの音声によって機能を実行することが可能となる。

但し、本実施形態においては、機能実行指示システム１において、音声認識サーバ２０を含むこととしていたが、必ずしも音声認識サーバ２０を含む必要はない。この場合、音声認識された結果、あるいは音声認識によらない単語群や文章が機能実行指示システム１に入力される。また、本実施形態では、機能実行指示サーバ１０と音声認識サーバ２０とが別体として構成されていたが、それらが一体として構成されていてもよい。この場合、音声認識結果を、通信端末３０を介して送受信する必要がない。また、通信端末３０等のユーザに用いられる端末に、機能実行指示サーバ１０あるいは音声認識サーバ２０の機能が備えられていてもよい。その場合、当該端末が本発明に係る機能実行指示システムとなる。あるいは、機能実行指示サーバ１０がタスクを実行する機能を有しており、タスクの実行結果を通信端末３０に提供する構成であってもよい。

引き続いて、上述した一連の機能実行指示サーバ１０による処理をコンピュータに実行させるための機能実行指示プログラムを説明する。図６に示すように、機能実行指示プログラム５０は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体４０に形成されたプログラム格納領域４１内に格納される。

機能実行指示プログラム５０は、機能実行モジュール５１と、単語入力モジュール５２と、実行機能決定モジュール５３とを備えて構成される。機能実行モジュール５１と、単語入力モジュール５２と、実行機能決定モジュール５３とを実行させることにより実現される機能は、上述した機能実行指示サーバ１０の機能実行指示部１１と、単語入力部１２と、実行機能決定部１３との機能とそれぞれ同様である。また、機能実行指示プログラム５０は、音声認識サーバ２０の機能に対応するモジュールを備えていてもよい。

なお、機能実行指示プログラム５０は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録（インストールを含む）される構成としてもよい。また、機能実行指示プログラム５０の各モジュールは、１つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の機能実行指示プログラム５０の処理が行われる。

１…機能実行指示システム、１０…機能実行指示サーバ、１１…機能実行指示部、１２…単語入力部、１３…実行機能決定部、２０…音声認識サーバ、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…通信モジュール、１０５…補助記憶装置、３０…通信端末、４０…記録媒体、４１…プログラム格納領域、５０…機能実行指示プログラム、５１…機能実行モジュール、５２…単語入力モジュール、５３…実行機能決定モジュール。

Claims

１つ以上の機能の実行を指示する機能実行指示手段と、
順序付けされた複数の単語を含む情報を入力する単語入力手段と、
前記単語入力手段によって入力された単語の順序に基づいて、前記１つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、
を備え、
前記実行機能決定手段は、前記１つ以上の機能毎に単語のスコアを記憶しておき、前記単語入力手段によって入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて前記１つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する、機能実行指示システム。
前記実行機能決定手段は、前記１つ以上の機能と予め設定された単語との対応付けを記憶しておき、前記単語入力手段によって入力された単語から予め設定された単語を抽出し、当該対応付けと抽出した単語の前記単語入力手段によって入力された際の順序とに基づいて、前記１つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する請求項１に記載の機能実行指示システム。
前記予め設定された単語は動詞である請求項２に記載の機能実行指示システム。
音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を前記単語入力手段に入力する音声認識手段を更に備える請求項１〜３の何れか一項に記載の機能実行指示システム。
１つ以上の機能毎に単語のスコアを記憶した機能実行指示システムの動作方法である機能実行指示方法であって、
１つ以上の機能の実行を指示する機能実行指示ステップと、
順序付けされた複数の単語を含む情報を入力する単語入力ステップと、
前記単語入力ステップにおいて入力された単語の順序に基づいて、前記１つ以上の機能から前記機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、
を含み、
前記実行機能決定ステップにおいて、前記単語入力ステップにおいて入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて前記１つ以上の機能から前記機能実行指示ステップにおいて実行が指示される機能を決定する、機能実行指示方法。
コンピュータを、
１つ以上の機能の実行を指示する機能実行指示手段と、
順序付けされた複数の単語を含む情報を入力する単語入力手段と、
前記単語入力手段によって入力された単語の順序に基づいて、前記１つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、
をして機能させ、
前記実行機能決定手段は、前記１つ以上の機能毎に単語のスコアを記憶しておき、前記単語入力手段によって入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて前記１つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する、機能実行指示プログラム。