JP5819261B2 - 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム - Google Patents

機能実行指示システム、機能実行指示方法及び機能実行指示プログラム Download PDF

Info

Publication number
JP5819261B2
JP5819261B2 JP2012137844A JP2012137844A JP5819261B2 JP 5819261 B2 JP5819261 B2 JP 5819261B2 JP 2012137844 A JP2012137844 A JP 2012137844A JP 2012137844 A JP2012137844 A JP 2012137844A JP 5819261 B2 JP5819261 B2 JP 5819261B2
Authority
JP
Japan
Prior art keywords
function
word
input
execution instruction
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012137844A
Other languages
English (en)
Other versions
JP2014002586A (ja
Inventor
孝輔 辻野
孝輔 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012137844A priority Critical patent/JP5819261B2/ja
Priority to EP13807663.3A priority patent/EP2863300B1/en
Priority to US14/395,851 priority patent/US9361063B2/en
Priority to PCT/JP2013/064767 priority patent/WO2013190957A1/ja
Priority to CN201380027998.8A priority patent/CN104335160B/zh
Publication of JP2014002586A publication Critical patent/JP2014002586A/ja
Application granted granted Critical
Publication of JP5819261B2 publication Critical patent/JP5819261B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Description

本発明は、1つ以上の機能を実行することができる機能実行指示システム、機能実行指示方法及び機能実行指示プログラムに関する。
従来から、ユーザの音声を認識して、認識した音声に基づいて機能を実行するシステムが知られている。例えば特許文献1には、ユーザの音声の認識結果に動詞や感情を表現する単語が含まれているか否かを判定して、判定に応じた応答を生成することが記載されている。
特開2009−198871号公報
しかしながら、ユーザの音声の認識結果に動詞や感情を表現する単語を抽出するだけでは、必ずしも適切な機能を実行できない場合がある。例えば、ユーザの発話が「明日の天気」であった場合、ユーザは天気予報を参照したいと考えられ、天気予報の機能を実行することが望ましい。しかし、日にちを表す単語とスケジューラの機能とが対応付けられていた場合、「明日」という日にちを表す単語が含まれているためスケジューラが実行(起動)されてしまう。即ち、誤判定が生じる。
また、動詞と機能とが対応付けられており、ユーザの発話が「コンサートを聞きに行く予定を作る」であった場合、「聞き」と「行く」と「作る」との複数の動詞が含まれている。このような場合、何れの動詞に対応付けられた機能を起動すべきか適切に判定することができない。
本発明は、上記の問題点に鑑みてなされたものであり、複数の単語による機能の実行を適切に行うことができる機能実行指示システム、機能実行指示方法及び機能実行指示プログラムを提供することを目的とする。
上記の目的を達成するために、本発明に係る機能実行指示システムは、1つ以上の機能の実行を指示する機能実行指示手段と、順序付けされた複数の単語を含む情報を入力する単語入力手段と、単語入力手段によって入力された単語の順序に基づいて、1つ以上の機能から機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、を備える。
本発明に係る機能実行指示システムでは、入力された単語の順序を考慮して、実行が指示される機能が決定される。そのため、機能を決定するために用いる単語が順序に応じて適切に用いられる。これにより、本発明に係る機能実行指示システムによれば、複数の単語による機能の実行を適切に行うことができる。
実行機能決定手段は、1つ以上の機能と予め設定された単語との対応付けを記憶しておき、単語入力手段によって入力された単語から予め設定された単語を抽出し、当該対応付けと抽出した単語の単語入力手段によって入力された際の順序とに基づいて、1つ以上の機能から機能実行指示手段によって実行が指示される機能を決定することとしてもよい。この構成によれば、例えば、入力された単語に実行が指示される機能を判断するための複数の動詞が含まれていた場合でも、適切に実行が指示される機能を判断することができる。予め設定された単語は動詞であることとしてもよい。
実行機能決定手段は、1つ以上の機能毎に単語のスコアを記憶しておき、単語入力手段によって入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて1つ以上の機能から機能実行指示手段によって実行が指示される機能を決定する。この構成によれば、同一の単語でも単語の順序によって、機能を決定する上で適切に考慮される。従って、複数の単語による適切な機能の実行を確実に行うことができる。
機能実行指示システムは、音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を単語入力手段に入力する音声認識手段を更に備えることとしてもよい。この構成によれば、ユーザの音声によって機能を実行することが可能となる。
ところで、本発明は、上記のように機能実行指示システムの発明として記述できる他に、以下のように機能実行指示方法及び機能実行指示プログラムの発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
即ち、本発明に係る機能実行指示方法は、1つ以上の機能毎に単語のスコアを記憶した機能実行指示システムの動作方法である機能実行指示方法であって、1つ以上の機能の実行を指示する機能実行指示ステップと、順序付けされた複数の単語を含む情報を入力する単語入力ステップと、単語入力ステップにおいて入力された単語の順序に基づいて、1つ以上の機能から機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、を含み、実行機能決定ステップにおいて、単語入力ステップにおいて入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて1つ以上の機能から機能実行指示ステップにおいて実行が指示される機能を決定する
また、本発明に係る機能実行指示プログラムは、コンピュータを、1つ以上の機能の実行を指示する機能実行指示手段と、順序付けされた複数の単語を含む情報を入力する単語入力手段と、単語入力手段によって入力された単語の順序に基づいて、1つ以上の機能から機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、をして機能させ、実行機能決定手段は、1つ以上の機能毎に単語のスコアを記憶しておき、単語入力手段によって入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて1つ以上の機能から機能実行指示手段によって実行が指示される機能を決定する
本発明では、入力された単語の順序に基づいて、実行が指示される機能が決定されるため、機能を決定するために用いる単語が順序に応じて適切に用いられる。これにより、本発明によれば、複数の単語による機能の実行を適切に行うことができる。
本発明の実施形態に係る機能実行指示システムの構成を示す図である。 ユーザの発話が「明日の天気」であった場合のタスク毎のスコアを示す表である。 ユーザの発話が「weather tomorrow」であった場合のタスク毎のスコアを示す表である。 本発明の実施形態に係る機能実行指示システムを構成する機能実行指示サーバ及び音声認識サーバのハードウェア構成を示す図である。 本発明の実施形態に係る機能実行指示システムで実行される処理(機能実行指示方法)を示すフローチャートである。 本発明の実施形態に係る機能実行指示プログラムの構成を、記録媒体と共に示す図である。
以下、図面と共に本発明に係る機能実行指示システム、機能実行指示方法及び機能実行指示プログラムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係る機能実行指示システム1を示す。機能実行指示システム1は、機能実行指示サーバ10と音声認識サーバ20とを備えて構成される。機能実行指示システム1は、通信端末30に対して予め設定された1つ以上の機能の実行を指示するシステムである。機能実行指示システム1から通信端末30に対して実行が指示される機能は、例えば、乗換案内、グルメ検索、画像検索、音楽検索、音楽プレーヤ、スケジューラ、メール、メモ、ルート案内、地図検索が相当する。なお、本実施形態では、実行される機能をタスクと呼ぶ。具体的には、乗換案内、グルメ検索、画像検索、音楽検索、地図検索に関しては、例えば、通信端末30において案内や検索結果の情報が表示出力される。
通信端末30は、通信網(例えば、移動体通信網)を介して機能実行指示サーバ10及び音声認識サーバ20等と通信を行うことができる装置であり、例えば、携帯電話機やPC(Personal Computer)に相当する。上記のタスクは、ユーザの音声をトリガとして実行されるため、通信端末30はユーザの音声を入力する機能を有している。また、通信端末30は、機能実行指示システム1からの指示を受けてタスクを実行する機能、例えば、情報の受信機能、情報処理機能及び表示機能等を有している。
即ち、通信端末30は、1つ以上の(あるいは複数の)タスクを実行する機能実行手段を有している。具体的には、通信端末30は、タスクに対応するアプリケーションプログラムを予め記憶しておき、記憶したアプリケーションプログラムを実行(起動)することによってタスクを実行する。通信端末30によって実行されるタスクは、後述するように機能実行指示サーバ10によって指示される。また、タスクの実行は、アプリケーションを実行する以外にも、ネットワークからタスクに応じた情報を取得することで行われてもよい。
機能実行指示システム1による通信端末30に対するタスクの実行の指示は、次のように行われる。まず、通信端末30がユーザの音声を入力する。入力された音声は、通信端末30から音声認識サーバ20に送信される。音声認識サーバ20は、通信端末30から音声を受信し、受信した音声に対して音声認識を行う。音声認識サーバ20は、音声認識の結果である文章あるいは単語の集合を通信端末30に送信する。通信端末30は、音声認識の結果を受信して、更に機能実行指示サーバ10に送信する。機能実行指示サーバ10は、当該音声認識の結果を受信して、その音声認識の結果に基づいて実行すべきタスクを決定して、当該タスクを実行するように通信端末30に指示する。例えば、機能実行指示サーバ10は、実行すべきタスクを示す情報を通信端末30に送信する。通信端末30は、機能実行指示サーバ10からの指示を受信して、当該指示に応じたタスクを実行する。なお、音声認識の結果である文章あるいは単語の集合はいったん通信端末30に送られることなく、音声認識サーバ20から機能実行指示サーバ10へ直接送信されてもよい。更に、機能実行指示サーバ10と音声認識サーバ20は一体であってもよい。
例えば、通信端末30のユーザが「明日の天気」と発話した場合には、機能実行指示サーバ10において、通信端末30の現在位置の明日の天気を調べるタスク(天気予報のタスク)が実行されるものと判断されて、天気予報のタスクの実行が通信端末30に指示される。なお、上記のように天気予報のタスクが実行される場合には、そのタスクの実行の際に通信端末30の現在位置の取得が行われる。このように、タスクによっては必要に応じて付加的な情報の取得が行われる。
なお、音声認識の結果である文章あるいは単語の集合は、より詳細には後述するように順序付けされた複数の単語を含む情報である。即ち、それらに含まれる複数の単語の順序(順番、文章中の位置)が分かるような情報である。以上が、本実施形態に係る機能実行指示システム1の概要である。
引き続いて、本実施形態に係る機能実行指示システム1の機能について説明する。音声認識サーバ20は、音声を入力して、入力した音声に対して音声認識を行い、音声認識を行った結果を出力する音声認識手段である装置である。具体的には、上述したように音声認識サーバ20は、通信端末30から音声データを受信する。音声認識サーバ20は、音声認識エンジンを有しており、当該音声認識エンジンを用いて音声認識を行う。音声認識自体は、従来の任意の音声認識方法を利用することができる。音声認識サーバ20は、音声認識結果を単語の集合(複数の単語からなる単語群)あるいは文章として取得して、通信端末30に送信する。ここで、音声認識結果は、それに含まれる単語の順序を特定することができる情報である。例えば、音声認識結果は、その音声認識結果に含まれる単語が順序に従って連続的に並べられた情報である。
図1に示すように、機能実行指示サーバ10は、機能実行指示部11と、単語入力部12と、実行機能決定部13とを備えて構成される。
機能実行指示部11は、通信端末30に対して、1つあるいは複数のタスクの実行を指示する機能実行指示手段である。具体的には、機能実行指示部11は、タスクを実行させるコマンドを通信端末30に送信することでタスクの実行を指示する。機能実行指示部11によって実行が指示されるタスクは、後述するように実行機能決定部13によって決定される。
また、実行が指示されるタスクには、単語を入力(引数)とする機能がある。これをタスクのスロットと呼ぶ。スロットは予め定められている。例えば、天気予報のタスクであれば、対象となる時刻(今日、明日、一週間)や対象となる地域を入力するスロットが設けられている。なお、タスクには0個以上のスロットが定義されている。即ち、スロットがないタスクもある。また、各スロットには、スロットへの単語の入力が無かった場合に予め設定された単語(デフォルトの単語)が入力されるかを示す情報が対応付けられていてもよい。例えば、天気予報の場合は、対象となる地域については、GPS(Global Positioning System)等で取得されるユーザの現在位置をデフォルトの単語として入力することとしてもよい。
単語入力部12は、順序付けされた複数の単語を含む情報を入力する単語入力手段である。具体的には、単語入力部12は、通信端末30から、音声認識サーバ20による音声認識の結果である順序付けされた複数の単語を示す情報を受信することで上記の情報を入力する。あるいは、音声認識サーバ20による音声認識の結果が文章(入力文)である場合には、単語入力部12は、文章を受信して、文章から単語を抽出する、又は文章を単語に切り分けることで単語を取得すると共に単語の順序を特定する。なお、文章から単語を取得する方法は、形態素辞書を用いた形態素解析等の従来の任意の方法を用いることができる。単語入力部12に入力される単語は、通信端末30に対するユーザの発話単位である。即ち、一回の発話に含まれる単語群を一つの単位として扱う。単語入力部12は、取得した順序付けされた複数の単語を示す情報を実行機能決定部13に入力する。
実行機能決定部13は、単語入力部12によって入力された単語の順序に基づいて、機能実行指示部11によって実行が指示されるタスクを決定する実行機能決定手段である。例えば、実行機能決定部13は、タスクと予め設定された単語との対応付けを記憶しておき、その対応付けと順序付けされた単語とから実行が指示されるタスクを決定する。具体的には、実行機能決定部13は、タスク毎に単語のスコアを記憶しておく。タスク毎の単語のスコアとは、例えば、「スケジューラ」のタスクでは、「明日」という単語には350のスコアが対応付けられている。また、「天気予報」のタスクでは、「明日」という単語には100のスコアが、「天気」という単語には200のスコアがそれぞれ対応付けられている。実行機能決定部13は、入力された単語に当該単語の順序に応じた重み付けを行い、その重み付けを考慮してユーザの発話単位で入力された単語群のスコアを特定して、特定したスコアに基づいて実行されるタスクを決定する。この重み付けは予め設定されて、実行機能決定部13に記憶されている。重み付けは、単語数や入力された単語の言語に応じたものとなっていてもよい。これらの対応付け及び重み付けを示す情報は、例えば、予め機能実行指示システム1の管理者等によって機能実行指示サーバ10に入力されて記憶されている。
例えば、ユーザの発話が「明日の天気」であったとする。この場合、図2に示すように、ユーザの発話は、「明日」、「の」、「天気」という順序で3つの単語に分けられる。3つの単語の場合、位置による重みは、例えば、図2(a)に示すように最初の単語が0.6、次の単語が0.8、最後の単語が1.0と予め設定されている。日本語の場合、文章の中でより後の方に重要な単語が位置することが多いため、後ろの単語をより重い重みとすることが望ましい。ユーザの発話が「明日の天気」である場合、ユーザは天気を知りたいと考えられるため、前に位置する「明日」という単語よりも後ろに位置する「天気」という単語の方が重要である。
そして、タスク毎に上記の対応付けに基づいて、各単語のスコアが特定されて、そのスコアに単語の位置による重みが掛けられて、それらが合計されてタスク毎のスコアが算出される。図2(a)に示すように各単語の重み付けされたスコアを特定し、それらを合計することで各タスク(図2(a)の例では「スケジューラ」、「天気予報」のタスク)のスコアが合計される。タスク毎の単語のスコアは、タスクとの関連度合に応じて定められている。なお、タスク毎の単語のスコアは、個々の単語毎でなく、単語をカテゴリ分けしてカテゴリ単位で(カテゴリ毎に)定められていてもよい。例えば、「乗換案内」にタスクに、駅のカテゴリ(駅名からなる単語の集合)にスコアが対応付けられていてもよい。この場合、ユーザの発話に含まれる各単語がどのカテゴリに属するかを特定し、特定したカテゴリとタスク毎に対応づけられたカテゴリの比較によりスコアを算出する。
実行機能決定部13は、例えば、スコアが最も高いタスクを、機能実行指示部11によって実行が指示されるタスクとして決定する(あるいは、実行が指示されるタスク候補とする)。図2(a)に示す例の場合は、「天気予報」のタスクのスコアが260であり、「スケジューラ」のタスクのスコアが210であるため、スコアが高い「天気予報」のタスクを実行が指示されるタスクとして決定する。実行機能決定部13は、機能実行指示部11に対して、決定したタスクを通知する。この通知がされると、機能実行指示部11から通信端末30に対してタスクの実行が指示される。
また、この指示の際に、単語入力部12によって入力された単語のうち、実行されるタスクのスロットへの入力となる単語(カテゴリに入力しえる単語)も合わせて通知することとしてもよい。スロットへの入力となる単語も、機能実行指示部11から通信端末30に対してタスクの実行の指示と合わせて送信される。例えば、「明日の天気」という発話によって「天気予報」のタスクが実行される場合には、天気予報の対象となる時刻を示す「明日」という単語が、「天気予報」のスロットの入力とされる。また、天気予報の対象となる地域のスロットには、ユーザの現在位置がデフォルトの単語として入力されてもよい。これにより、ユーザの現在位置の明日の天気が検索されて、その結果がユーザに提示される。なお、タスクの実行の上でスロットへの入力が不足している場合には、その時点でユーザにスロットへの入力を促して、改めてスロットに入力する単語を入力することとしてもよい。
上記のように、実行機能決定部13は、実行されるタスクを決定するために単語毎に重み付けされたスコアを算出する。ここで、単語の位置毎に重み付けがなされずにスコアが算出される例を考える。図2(b)に、図2(a)に示したスコア算出の例に対して重み付けがされないでスコアが算出される例(本実施形態の比較例)を示す。図2(b)に示すように重み付けがされない場合、「スケジューラ」のタスクのスコアが350となり、「天気予報」のタスクのスコアが300となる。この場合、「スケジューラ」のタスクのスコアが高くなり、「スケジューラ」の方が実行されるタスクとして決定されてしまうこととなる。上述したように「明日の天気」とユーザが発話した場合、ユーザは天気を知りたいと考えられるため、位置による重みを付けないスコアを用いた場合は適切なタスクを実行することができない(誤判定が生じる)。
なお、上記の例では「明日」という単語自体の「スケジューラ」でのスコアが高かったため上記の結果になったとも考えられる。しかしながら、「ゴルフの結果」という発話に対してはスポーツニュース検索が実行され、「明日はゴルフ」という発話に対してはスケジューラが実行されるようにするためには「明日」という単語の「スケジューラ」でのスコアは高いものにしておく必要がある。従って、本実施形態のように重み付けをせずに、単に単語のスコアの組み合わせ(調整)をするだけでは誤判定が避けられない。即ち、本実施形態のように単語の位置(単語の順序)を考慮した重み付けを行うことで適切に実行が指示されるタスクを判断できる。
図3に別の例を示す。例えば、ユーザの発話が「weather tomorrow」であったとする。この場合、図2に示すように、ユーザの発話は、「weather」、「tomorrow」という順序で2つの単語に分けられる。この例の場合、単語の数は2つで言語が英語である。この場合、位置による重みは、例えば、図3(a)に示すように最初の単語が1.0、最後の単語が0.5と予め設定されている。英語(西欧言語)の場合、日本語とは異なり、文章の中でより前の方に重要な単語が位置することが多いため、前の単語をより重い重みとすることが望ましい。ユーザの発話が「weather tomorrow」である場合、日本語の例の場合と同様にユーザは天気を知りたいと考えられるため、後ろに位置する「tomorrow」という単語よりも後ろに位置する「weather」という単語の方が重要である。
この場合(本実施形態の例)、図3(a)に示すように、「天気予報」のタスクのスコアが250であり、「スケジューラ」のタスクのスコアが175であるため、スコアが高い「天気予報」のタスクが実行指示されるタスクとして決定される。即ち、この場合、適切に実行されるタスクが判断される。
一方で、単語の位置毎に重み付けがなされずにスコアが算出される場合(本実施形態の比較例)は、図3(b)に示すように「スケジューラ」のタスクのスコアが350となり、「天気予報」のタスクのスコアが300となる。この場合、「スケジューラ」のタスクのスコアが高くなり、「スケジューラ」の方が実行されるタスクとして決定されてしまうこととなる。このように、この例でも位置による重みを付けないスコアを用いた場合は適切なタスクを実行指示することができない(誤判定が生じる)。以上が単語の順序に応じた重み付けに基づいて、実行が指示されるタスクを決定する実行機能決定部13の機能である。
また、実行機能決定部13は、以下のように実行が指示されるタスクを決定することとしてもよい。実行機能決定部13は、タスクと予め設定された単語との対応付けを記憶しておく。予め設定された単語とは、例えば、動詞等の予め設定された種別の単語である。各タスクには、それぞれのタスクに関連が深い動詞やタスクを表す動詞が対応付けられる。画像検索や各種検索のタスクには、「見る(watch,look…)」という動詞が対応付けられている。音楽検索や音楽プレーヤのタスクには、「聞く(hear,listen to…)」という動詞が対応付けられている。スケジューラ、メール、メモのタスクには、「作る(make,cook,create,write…)」という動詞が対応付けられている。ルート案内、乗換案内のタスクには、「行く(go)」という動詞が対応付けられている。なお、1つのタスクの複数の動詞が対応付けられていてもよいし、1つの動詞が複数のタスクに対応付けられていてもよい。これらの対応付けを示す情報は、例えば、予め機能実行指示システム1の管理者等によって機能実行指示サーバ10に入力されて記憶されている。
実行機能決定部13は、単語入力部12によって入力された単語から、上記の予め設定された単語(動詞)を抽出する。実行機能決定部13は、抽出した単語のうち予め設定された順序の単語と上記の対応付けとに基づいて、機能実行指示部11によって実行が指示されるタスクを決定する。具体的には、複数の動詞が抽出された場合、その複数の単語の中から、単語の順序に基づいてタスクの決定に利用する単語を決定する。この決定は、入力された単語の言語に応じたものとなっていてもよい。
入力された単語が日本語であった場合、抽出された動詞のうち、順序が最も後の動詞(最後に出てきた独立語)をタスクの決定に利用する単語とする。例えば、ユーザの発話が「コンサートを聞きに行く予定を作る」であった場合、「聞き」、「行く」、「作る」という3つの動詞が抽出される。このうち、順序が最も後の動詞である「作る」がタスクの決定に利用する単語とされる。なお、抽出された動詞が1つであった場合には、その1つの単語をタスクの決定に利用する単語とする。
実行機能決定部13は、タスクの決定に利用するとされた動詞に対応付けられたタスクを決定するタスクとする。なお、1つの動詞に複数のタスクが対応づけられていた場合には、それら複数のタスクを実行される候補として、その候補の中から別の方法で実行が指示されるタスクを決定する。例えば、それらの候補に対して、上述した単語に基づくスコアを算出して、スコアに基づいて実行されるタスクを決定する。上記の例の場合、「作る」に対応付けられた、「スケジューラ」、「メール」、「メモ」のタスクが実行される候補と決定される。
上記の例のように日本語の場合、通常、文章の意図に最も関係が深い動詞は最後に出てきた動詞である。このように、最後に出てきた動詞を文章(ユーザの発話)が意図するメインのアクションと判定することで、実行を指示するタスクの判定精度を高めることができる。
一方、英語(西欧言語)の場合、最初に出てきた動詞(独立語)をタスクの決定に利用する動詞とする。英語の場合、通常、文章の意図に最も関係が深い動詞は最初に出てきた動詞であるためである。例えば、ユーザの発話が「Make a schedule to go a concert.」であった場合、「Make」、「go」という2つの動詞が抽出されるが、最初に出てきた「Make」をタスクの決定に利用することで、goに対応付けられたルート案内等のタスクでなく、予定の作成等のタスクと判断することができる。
なお、上記の判断は、動詞以外の単語が用いられて行われてもよい。具体的にはタスクに密接に関わるキーワード(強いキーワード)を上記の動詞と同様に予め設定しておき、それを抽出して最後に出てきた単語(日本語の場合)でタスクを決定してもよい。例えば、ユーザの発話が「圧力鍋のレシピ本がみたいなぁ」であった場合、タスクに密接に関わるキーワードとして「レシピ」、「本」という2つの単語が抽出される。「レシピ」は「レシピ検索」のタスクに、「本」は「書籍検索」タスクにそれぞれ対応付いている単語(キーワード)である。上記のユーザの発話は、本の検索を意図するものであり、上記の単語のうち、最後のキーワード「本」がその前のキーワード「レシピ」より優先される。また、強いキーワードとしては、上記以外にも「乗換案内」のタスクに対する「乗換」という単語がある。以上が予め設定された単語の順序に応じてタスクの決定に用いる単語を決定して、実行が指示されるタスクを決定する実行機能決定部13の機能である。以上が、本実施形態に係る機能実行指示システム1の機能構成である。
図4に本実施形態に係る機能実行指示サーバ10及び音声認識サーバ20を構成するサーバ装置のハードウェア構成を示す。図4に示すように当該サーバ装置は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した機能実行指示サーバ10及び音声認識サーバ20の機能が発揮される。以上が、本実施形態に係る機能実行指示システム1の構成である。
引き続いて、図5のフローチャートを用いて、本実施形態に係る機能実行指示システム1で実行される処理である機能実行指示方法を説明する。本処理では、まず、本実施形態に係る機能実行指示システム1による機能実行の指示を受けるための通信端末30に対するユーザの操作が行われて、通信端末30に、機能を実行させるためのユーザの音声(発話)が入力される。続いて、当該音声が通信端末30から音声認識サーバ20に送信される。音声認識サーバ20では、当該音声が受信されて入力される(S01、音声認識ステップ)。続いて、音声認識サーバ20では、入力された音声に対して音声認識が行われる(S02、音声認識ステップ)。音声認識結果である単語の集合あるいは文章を示す情報が音声認識サーバ20から通信端末30に送信される。単語の集合あるいは文章を示す情報は、単語が順序付けされたものである。通信端末30では、その情報が受信されて、機能実行指示サーバ10に送信される。
機能実行指示サーバ10では、単語入力部12によって、音声認識結果である順序付けされた複数の単語を含む情報が受信されて入力される(S03、単語入力ステップ)。入力された情報は、単語入力部12から実行機能決定部13に出力される。続いて、実行機能決定部13によって、入力された情報に含まれる順序付けされた複数の単語に、予め設定された強いキーワードが含まれるか否かが判断される(強いキーワードが抽出される)(S04、実行機能決定ステップ)。強いキーワードが含まれていると判断された場合(S04のYES)、当該強いキーワードに対応付けられたタスクが実行指示されるタスクとして決定される(S07、実行機能決定ステップ)。なお、入力された単語に複数の強いキーワードが含まれていた場合、それらのキーワードから、単語の順序に基づいて実行指示されるタスクの決定に用いられるキーワードが決定される。
強いキーワードが含まれていないと判断された場合(S04のNO)、続いて、実行機能決定部13によって、入力された情報に含まれる順序付けされた複数の単語から予め設定された動詞が抽出される。抽出された動詞に対応付けられた動詞が、実行指示されるタスクの候補として決定される(実行タスクの候補が限定される)(S05、実行機能決定ステップ)。なお、入力された単語に複数の動詞が含まれていた場合、それらの動詞から、単語の順序に基づいて実行指示されるタスクの決定に用いられる動詞が決定される。また、入力された単語に予め設定された動詞が含まれない場合、実行が指示されるタスクの候補の限定は行われず、全てのタスクが実行指示されるタスクの候補とされる。
続いて、実行機能決定部13によって、実行指示されるタスクの候補とされたタスクについて、タスク毎のスコアが算出される(S06、実行機能決定ステップ)。タスク毎のスコアは、図2及び図3を用いて説明したように、入力された単語に基づいて単語の順序に基づいて重み付けされて算出される。続いて、実行機能決定部13によって、最も高いスコアのタスクが実行指示されるタスクとして決定される(S07、実行機能決定ステップ)
続いて、決定したタスクの実行を指示するように実行機能決定部13から機能実行指示部11に指示が行われる。この際、タスクのスロットに入力される単語も合わせて機能実行指示部11に出力される。続いて、指示を受けた機能実行指示部11によって通信端末30に対してタスクの実行が指示される(S08、機能実行指示ステップ)。通信端末30では、この指示が受け付けられ、指示に係るタスクが実行される。以上が本実施形態に係る機能実行指示システム1で実行される処理である機能実行指示方法である。
上述したように本実施形態では、入力された単語の順序に基づいて、実行が指示されるタスクが決定される。そのため、タスクを決定するために用いる単語が順序に応じてユーザの意図が考慮されて適切に用いられる。これにより、本実施形態によれば、複数の単語による機能の実行を適切に行うことができる。
より具体的には、本実施形態のように単語の順序に応じた単語の重み付けを行って、実行が指示されるタスクを決定することとするのがよい。この構成によれば、同一の単語でも単語の順序によって、タスクを決定する上で適切に考慮される。従って、複数の単語による適切なタスクの実行を確実に行うことができる。即ち、ユーザの意図に沿ったタスクを実行することができる。例えば、上述した「明日の天気」の例で説明したように、ユーザに意図に沿わない「スケジュール」のタスクが実行されることを防止し、ユーザの意図に沿った「天気予報」のタスクが実行される。
また、本実施形態のように動詞等の予め設定した特定の単語を抽出して、抽出した単語のうち、単語の順序に応じて実行が指示されるタスクを決定する単語を決めることとするのがよい。この構成によれば、例えば、入力された単語に実行を指示するタスクを判断するための複数の動詞が含まれていた場合でも、適切に実行を指示するタスクを判断することができる。即ち、ユーザの意図に沿ったタスクを実行することができる。例えば、上述した「コンサートを聞きに行く予定を作る」の例で説明したように、ユーザの意図に沿った「スケジューラ」のタスクを含むタスクを実行が指示されるタスクの候補とすることができる。あるいは、強いキーワードを用いて実行が指示されるタスクを決定する場合にも、ユーザの意図に沿ったタスクを決定することができる。
また、本実施形態のように音声を入力して音声認識を行って、音声認識結果を入力される単語を含む情報とすることとしてもよい。この構成によれば、ユーザの音声によって機能を実行することが可能となる。
但し、本実施形態においては、機能実行指示システム1において、音声認識サーバ20を含むこととしていたが、必ずしも音声認識サーバ20を含む必要はない。この場合、音声認識された結果、あるいは音声認識によらない単語群や文章が機能実行指示システム1に入力される。また、本実施形態では、機能実行指示サーバ10と音声認識サーバ20とが別体として構成されていたが、それらが一体として構成されていてもよい。この場合、音声認識結果を、通信端末30を介して送受信する必要がない。また、通信端末30等のユーザに用いられる端末に、機能実行指示サーバ10あるいは音声認識サーバ20の機能が備えられていてもよい。その場合、当該端末が本発明に係る機能実行指示システムとなる。あるいは、機能実行指示サーバ10がタスクを実行する機能を有しており、タスクの実行結果を通信端末30に提供する構成であってもよい。
引き続いて、上述した一連の機能実行指示サーバ10による処理をコンピュータに実行させるための機能実行指示プログラムを説明する。図6に示すように、機能実行指示プログラム50は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体40に形成されたプログラム格納領域41内に格納される。
機能実行指示プログラム50は、機能実行モジュール51と、単語入力モジュール52と、実行機能決定モジュール53とを備えて構成される。機能実行モジュール51と、単語入力モジュール52と、実行機能決定モジュール53とを実行させることにより実現される機能は、上述した機能実行指示サーバ10の機能実行指示部11と、単語入力部12と、実行機能決定部13との機能とそれぞれ同様である。また、機能実行指示プログラム50は、音声認識サーバ20の機能に対応するモジュールを備えていてもよい。
なお、機能実行指示プログラム50は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、機能実行指示プログラム50の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の機能実行指示プログラム50の処理が行われる。
1…機能実行指示システム、10…機能実行指示サーバ、11…機能実行指示部、12…単語入力部、13…実行機能決定部、20…音声認識サーバ、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、30…通信端末、40…記録媒体、41…プログラム格納領域、50…機能実行指示プログラム、51…機能実行モジュール、52…単語入力モジュール、53…実行機能決定モジュール。

Claims (6)

  1. 1つ以上の機能の実行を指示する機能実行指示手段と、
    順序付けされた複数の単語を含む情報を入力する単語入力手段と、
    前記単語入力手段によって入力された単語の順序に基づいて、前記1つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、
    を備え
    前記実行機能決定手段は、前記1つ以上の機能毎に単語のスコアを記憶しておき、前記単語入力手段によって入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて前記1つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する、機能実行指示システム。
  2. 前記実行機能決定手段は、前記1つ以上の機能と予め設定された単語との対応付けを記憶しておき、前記単語入力手段によって入力された単語から予め設定された単語を抽出し、当該対応付けと抽出した単語の前記単語入力手段によって入力された際の順序とに基づいて、前記1つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する請求項1に記載の機能実行指示システム。
  3. 前記予め設定された単語は動詞である請求項2に記載の機能実行指示システム。
  4. 音声を入力して、入力した音声に対して音声認識を行って、音声認識を行った結果を前記単語入力手段に入力する音声認識手段を更に備える請求項1〜の何れか一項に記載の機能実行指示システム。
  5. 1つ以上の機能毎に単語のスコアを記憶した機能実行指示システムの動作方法である機能実行指示方法であって、
    1つ以上の機能の実行を指示する機能実行指示ステップと、
    順序付けされた複数の単語を含む情報を入力する単語入力ステップと、
    前記単語入力ステップにおいて入力された単語の順序に基づいて、前記1つ以上の機能から前記機能実行指示ステップにおいて実行が指示される機能を決定する実行機能決定ステップと、
    を含み、
    前記実行機能決定ステップにおいて、前記単語入力ステップにおいて入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて前記1つ以上の機能から前記機能実行指示ステップにおいて実行が指示される機能を決定する、機能実行指示方法。
  6. コンピュータを、
    1つ以上の機能の実行を指示する機能実行指示手段と、
    順序付けされた複数の単語を含む情報を入力する単語入力手段と、
    前記単語入力手段によって入力された単語の順序に基づいて、前記1つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する実行機能決定手段と、
    をして機能させ
    前記実行機能決定手段は、前記1つ以上の機能毎に単語のスコアを記憶しておき、前記単語入力手段によって入力された単語のスコアに、入力された情報全体に対する単語の順序に応じた重み付けを行い、重み付けされた単語のスコアを合計して当該機能毎のスコアを算出して、当該スコアに応じて前記1つ以上の機能から前記機能実行指示手段によって実行が指示される機能を決定する、機能実行指示プログラム。
JP2012137844A 2012-06-19 2012-06-19 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム Active JP5819261B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012137844A JP5819261B2 (ja) 2012-06-19 2012-06-19 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
EP13807663.3A EP2863300B1 (en) 2012-06-19 2013-05-28 Function execution instruction system, function execution instruction method, and function execution instruction program
US14/395,851 US9361063B2 (en) 2012-06-19 2013-05-28 Function execution instruction system, function execution instruction method, and function execution instruction program
PCT/JP2013/064767 WO2013190957A1 (ja) 2012-06-19 2013-05-28 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
CN201380027998.8A CN104335160B (zh) 2012-06-19 2013-05-28 功能执行指示系统、以及功能执行指示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012137844A JP5819261B2 (ja) 2012-06-19 2012-06-19 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム

Publications (2)

Publication Number Publication Date
JP2014002586A JP2014002586A (ja) 2014-01-09
JP5819261B2 true JP5819261B2 (ja) 2015-11-18

Family

ID=49768560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012137844A Active JP5819261B2 (ja) 2012-06-19 2012-06-19 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム

Country Status (5)

Country Link
US (1) US9361063B2 (ja)
EP (1) EP2863300B1 (ja)
JP (1) JP5819261B2 (ja)
CN (1) CN104335160B (ja)
WO (1) WO2013190957A1 (ja)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10013978B1 (en) * 2016-12-30 2018-07-03 Google Llc Sequence dependent operation processing of packet based data message transmissions
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6502249B2 (ja) 2013-08-29 2019-04-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016061954A (ja) * 2014-09-18 2016-04-25 株式会社東芝 対話装置、方法およびプログラム
US20160104476A1 (en) * 2014-10-09 2016-04-14 International Business Machines Corporation Cognitive Security for Voice Phishing Activity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
JP7335794B2 (ja) * 2019-11-20 2023-08-30 シュナイダーエレクトリックホールディングス株式会社 情報処理装置及び設定装置
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356999A (ja) 1999-06-16 2000-12-26 Ishikawajima Harima Heavy Ind Co Ltd 音声によるコマンド入力装置及び方法
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
US6836760B1 (en) * 2000-09-29 2004-12-28 Apple Computer, Inc. Use of semantic inference and context-free grammar with speech recognition system
JP4220151B2 (ja) * 2001-11-26 2009-02-04 株式会社豊田中央研究所 音声対話装置
JP2003202888A (ja) * 2002-01-07 2003-07-18 Toshiba Corp 無線通信機能付きヘッドセットおよびこれを用いた音声処理システム
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
JP4157418B2 (ja) * 2003-05-02 2008-10-01 日本放送協会 データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム
EP1699042B1 (en) * 2003-12-26 2010-02-17 Kabushiki Kaisha Kenwood Device control device, method and program
US7949536B2 (en) * 2006-08-31 2011-05-24 Microsoft Corporation Intelligent speech recognition of incomplete phrases
US8359190B2 (en) * 2006-10-27 2013-01-22 Hewlett-Packard Development Company, L.P. Identifying semantic positions of portions of a text
JP2009198871A (ja) 2008-02-22 2009-09-03 Toyota Central R&D Labs Inc 音声対話装置
KR101528266B1 (ko) * 2009-01-05 2015-06-11 삼성전자 주식회사 휴대 단말기 및 그의 응용프로그램 제공 방법
JP5638210B2 (ja) * 2009-08-27 2014-12-10 京セラ株式会社 携帯電子機器
JP5146429B2 (ja) * 2009-09-18 2013-02-20 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information

Also Published As

Publication number Publication date
CN104335160B (zh) 2017-05-24
US20150142448A1 (en) 2015-05-21
US9361063B2 (en) 2016-06-07
EP2863300A1 (en) 2015-04-22
CN104335160A (zh) 2015-02-04
WO2013190957A1 (ja) 2013-12-27
JP2014002586A (ja) 2014-01-09
EP2863300B1 (en) 2019-01-23
EP2863300A4 (en) 2016-03-02

Similar Documents

Publication Publication Date Title
JP5819261B2 (ja) 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
US11328017B2 (en) Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation
EP3032532B1 (en) Disambiguating heteronyms in speech synthesis
US10037758B2 (en) Device and method for understanding user intent
JP6073881B2 (ja) 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
US11282521B2 (en) Dialog system and dialog method
CN112673421A (zh) 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
CN110998719A (zh) 信息处理设备和信息处理方法
US9582498B2 (en) Actions on digital document elements from voice
US9099091B2 (en) Method and apparatus of adaptive textual prediction of voice data
EP3425629B1 (en) Speech recognition system, terminal device, and dictionary management method
WO2015102082A1 (ja) ユーザのデータ入力に応じて情報提供を行うための端末装置、プログラム、およびサーバ装置
US20200143792A1 (en) Interactive system, apparatus, and method
JP2008234427A (ja) ユーザ間の対話を支援する装置、方法およびプログラム
EP3241123B1 (en) Voice recognition-based dialing
JP6085149B2 (ja) 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5901694B2 (ja) 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム
JP2020027466A (ja) 対話方法、対話システム及びプログラム
JP6223739B2 (ja) 機能実行指示システム及び機能実行指示方法
JP5673239B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
KR20200072005A (ko) 음성 인식된 문장의 보정 방법
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150930

R150 Certificate of patent or registration of utility model

Ref document number: 5819261

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250