JP7434978B2

JP7434978B2 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JP7434978B2
Application number: JP2020020577A
Authority: JP
Inventors: 敬滋堀; 浩司西山
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2024-02-21
Anticipated expiration: 2040-02-10
Also published as: CN113312927A; JP2021124709A; US11626100B2; US20210248994A1; CN113312927B

Description

本開示は、情報処理装置、情報処理方法、及び、プログラムに関する。

複数の言語の地図情報及び音声案内情報を備え、携帯電話端末機に設定されている使用言語の地図情報及び音声案内情報を用いてナビゲーション制御を行う多言語対応ナビゲーション装置が開示されている（例えば、特許文献１）。

特開２００８－０９６２８９号公報

しかしながら、例えば、ユーザの発話に複数の言語が入り混じった場合に、携帯端末機に設定されている言語又は発話の言語の地図情報及び音声案内情報では、発話の意図の理解の精度が低下するおそれがある。

開示の態様の一つは、発話の内容の意図理解の精度を向上可能な情報処理装置、情報処理方法、及び、プログラムを提供することを課題とする。

本開示の態様の一つは、
入力された発話に関する場所に関連のある第１の情報に基づいて、前記発話の内容を翻訳する第１の言語を特定することと、
前記第１の言語で翻訳された前記発話の内容に基づいて、前記発話の内容の意図を推定することと、
前記推定された意図に基づいて、提供するサービスを選択することと、
前記サービスに関して、前記発話の言語による案内を行うことと、
を実行する制御部、
を備える情報処理装置である。

本開示の他の態様の一つは、
場所に関する第１の情報に基づいて、入力された発話の内容を翻訳する第１の言語を特定することと、
前記第１の言語で翻訳された前記発話の内容に基づいて、前記発話の内容の意図を推定することと、
前記推定された意図に基づいて、提供するサービスを選択することと、
前記サービスに関して、前記発話の言語による案内を行うことと、
を実行する情報処理方法である。

本開示の他の態様の一つは、
コンピュータに、
入力された発話の内容をサーバに送信することと、
前記サーバによって、場所に関する第１の情報に基づいて特定された第１の言語によって前記発話の内容が翻訳され、前記第１の言語で翻訳された前記発話の内容に基づいて、前記発話の内容の意図が推定され、前記推定された意図に基づいて、前記サービスが選択さ
れ、送信された、前記サービスに関する前記発話の言語による案内を受信することと、
を実行させるためのプログラムである。

本開示によれば、発話の内容の意図理解の精度を向上させることができる。

図１は、第１実施形態に係る対話制御システムのシステム構成の一例を示す図である。図２は、センタサーバのハードウェア構成の一例を示す図である。図３は、センタサーバの機能構成の一例を示す図である。図４は、センタサーバの対話制御処理のフローチャートの一例である。図５は、対話制御処理の具体例を示す図である。

音声によって装置に命令を行う際には、例えば、入力された発話の意図を理解するための意図理解エンジンが用いられることが多い。１つの意図理解エンジンは、１つの言語に対応していることが多い。一方、発話には、複数の言語が入り混じる場合がある。例えば、外国に滞在中、母国語の中に滞在先の国の地名のローカルな通称が混じる、等である。通常、意図理解エンジンは、発話の言語に対応したものが利用されることが多いが、発話に複数の言語が混じっている場合には、その意図を精度よく理解することは困難であることが多い。

そこで、本開示の態様の一つでは、情報処理装置は、発話に関する場所に関連のある第１の情報に基づいて、発話の内容を第１の言語に翻訳し、第１の言語に翻訳された発話の内容に基づいて、発話の内容の意図の推定を行う。

具体的には、本開示の態様の一つは、入力された発話に関する場所に関連のある第１の情報に基づいて、発話の内容を翻訳する第１の言語を特定することと、第１の言語で翻訳された発話の内容に基づいて、発話の内容の意図を推定することと、推定された意図に基づいて、提供するサービスを選択することと、当該サービスに関して、発話の言語による案内を行うことと、を実行する制御部、を備える情報処理装置である。第１の言語は、発話の言語とは異なる。

情報処理装置は、例えば、サーバである。ただし、情報処理装置はサーバに限定されず、例えば、スマートフォン、タブレット端末、ＰＣ（Personal Computer）、カーナビゲ
ーションシステム等のユーザ端末であってもよい。制御部は、例えば、プロセッサである。発話に関する場所に関連のある第１の情報は、例えば、発話が入力された装置の位置情報、及び、発話が入力された装置のユーザの場所に関する嗜好を示す情報である。発話が入力された装置と情報処理装置とが同じ装置であってもよい。発話が入力された装置のユーザの場所に関する嗜好を示す情報は、例えば、検索履歴、スケジュール情報、又は、配信情報の履歴の少なくとも一つにおける国の出現数のランキングである。

例えば、第１の情報が、発話が入力された装置の位置情報である場合には、第１の言語は、当該位置情報が示す国における使用言語である。例えば、第１の情報が、発話が入力された装置のユーザの検索履歴における国の出現数ランキングである場合には、第１の言語は、当該ランキングの一位の国の使用言語である。

発話の内容の意図の推定には、例えば、意図理解エンジンが用いられてもよい。情報処理装置は、発話の内容の意図の推定に、第１の言語に対応する意図理解エンジンを用いてもよい。

本開示の態様の一つでは、場所に関する第１の情報に基づいて特定された第１の言語で翻訳された発話の内容に基づいて、発話の内容の意図の推定が行われる。これによって、例えば、発話の内容に複数の言語が混ざっており、その中に第１の言語特有の文言があるような場合には、発話の意図がより精度良く理解されることができる。

以下、図面に基づいて、本発明の実施の形態を説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成に限定されない。

＜第１実施形態＞
図１は、第１実施形態に係る対話制御システム１００のシステム構成の一例を示す図である。対話制御システム１００は、ユーザの音声を認識し、当該音声に含まれる処理の指示に従って、当該処理を行うサービスを提供するシステムである。対話制御システム１００は、例えば、センタサーバ１、ユーザ端末２、及び、翻訳サーバ３を備える。センタサーバ１、ユーザ端末２、及び、翻訳サーバ３は、それぞれ、ネットワークＮ１に接続しており、ネットワークＮ１を通じて通信可能である。

ユーザ端末２は、例えば、スマートフォン、タブレット端末、ＰＣ、又は、カーナビゲーションシステム等の車載装置である。ユーザ端末２は、例えば、処理の指示を含む音声に従って当該処理を実行するサービスのインタフェースを提供する対話制御アプリケーションをインストールしている。ユーザ端末２は、例えば、当該対話制御アプリケーションを通じてユーザから入力された発話音声をテキストに変換し、テキストに変換された発話内容と対話制御要求とをセンタサーバ１へ送信する。また、第１実施形態では、対話制御要求とともに、ユーザ端末２の位置情報もセンタサーバ１へ送信される。

センタサーバ１は、ユーザ端末２から受信される対話制御要求に応じて、発話内容から処理の指示を認識し、当該処理を行うサービスを提供する。具体的には、センタサーバ１は、ユーザ端末２から受信された発話の内容を意図理解エンジンによって解析し、当該発話の内容に含まれる処理の指示を特定して実行し、実行結果をユーザ端末２へ送信する。処理の実行結果をユーザ端末２へ送信することは、「サービスに関して」「案内を行う」ことの一例である。

第１実施形態では、センタサーバ１は、発話の内容を意図理解エンジンに入力する前に、ユーザ端末２の位置情報が示す国の使用言語である第１の言語と、発話の言語とが同じであるか否かを判定する。第１の言語と発話の言語とが異なる場合には、センタサーバ１は、発話の内容を第１の言語に翻訳し、第１の言語に翻訳後の発話の内容を第１の言語に対応する意図理解エンジンによって解析する。センタサーバ１は、翻訳に外部の翻訳サーバ３を使用する。翻訳サーバ３は、センタサーバ１によって指定された言語へ指定されたデータを翻訳する。

例えば、海外に旅行に行っている場合には、発話の言語と、ユーザ端末２の位置情報が示す国の使用言語とが異なる。旅行先で対話制御システム１００のサービスを用いる場合に、発話内容に旅行先の国に特有の文言が含まれるような場合には、発話の言語での意図理解エンジンでは、その意図を正しく理解できないことがある。旅行先の国に特有の文言とは、例えば、観光名所の通称、その国に特有の食べ物及び料理の名称、国の地方の方言等である。そこで、第１実施形態では、発話の内容を旅行先の国の使用言語に翻訳し、翻訳後の発話の内容を旅行先の国の使用言語の意図理解エンジンで解析する。これによって、例えば、発話の言語では理解しきれない文言を理解することができたり、発話の意図を示す文言の取りこぼしを抑制することができたりして、発話の意図の理解の精度を向上させることができる。

図２は、センタサーバ１のハードウェア構成の一例を示す図である。センタサーバ１は、ハードウェア構成として、ＣＰＵ（Central Processing Unit）１０１、メモリ１０２
、外部記憶装置１０３、及び、通信部１０４を有する。メモリ１０２および外部記憶装置１０３は、コンピュータで読み取り可能な記録媒体である。センタサーバ１は、「情報処理装置」の一例である。

外部記憶装置１０３は、様々なプログラムや、各プログラムの実行に際してＣＰＵ１０１が使用するデータを格納する。外部記憶装置１０３は、例えば、ＥＰＲＯＭ（Erasable Programmable ROM）やハードディスクドライブ（Hard Disk Drive）である。外部記憶装置１０３に保持されるプログラムには、例えば、オペレーティングシステム（ＯＳ）、対話制御プログラム、その他様々なアプリケーションプログラムを保持する。対話制御プログラムは、発話の内容から処理の指示を認識し、当該処理を実行するためのプログラムである。

メモリ１０２は、ＣＰＵ１０１に、外部記憶装置１０３に格納されているプログラムをロードする記憶領域および作業領域を提供したり、バッファとして用いられたりする記憶装置である。メモリ１０２は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random
Access Memory）のような半導体メモリを含む。

ＣＰＵ１０１は、外部記憶装置１０３に保持されたＯＳや様々なアプリケーションプログラムをメモリ１０２にロードして実行することによって、様々な処理を実行する。ＣＰＵ１０１は、１つに限られず、複数備えられてもよい。ＣＰＵ１０１は、「情報処理装置」の「制御部」の一例である。

通信部１０４は、ネットワークとの情報の入出力を行うインタフェースである。通信部１０４は、有線のネットワークと接続するインタフェースであってもよいし、無線のネットワークと接続するインタフェースであってもよい。通信部１０４は、例えば、ＮＩＣ（Network Interface Card）や無線回路等である。なお、センタサーバ１のハードウェア構成は、図２に示されるものに限定されない。

なお、ユーザ端末２も、センタサーバ１と同様に、ＣＰＵ、メモリ、外部記憶装置、通信部を有するため、その図示を省略する。ユーザ端末２には、例えば、対話制御アプリケーションと音声テキスト変換アプリケーションとがインストールされており、これらのアプリケーションの実行によって、発話の音声データをテキストデータに変換した発話の内容と、対話制御要求とをセンタサーバ１へ送信する。なお、ユーザ端末２が音声テキスト変換アプリケーションを備えていない場合には、発話の音声データを送信してもよい。また、ユーザ端末２は、例えば、ＧＰＳ（Global Positioning System）受信部のような位
置情報の取得手段を備えており、対話制御要求とともに位置情報もセンタサーバ１へ送信する。

図３は、センタサーバ１の機能構成の一例を示す図である。センタサーバ１は、機能構成要素として、制御部１１、翻訳制御部１２、サービス判定部１３、意図理解エンジン群１４、及び、サービス群１５を備える。これらの機能構成要素は、例えば、センタサーバ１のＣＰＵ１０１が所定のプログラムを実行することによって達成される。

制御部１１は、ユーザ端末２から、対話制御要求と、発話の内容のテキストデータと、位置情報と、を受信する。なお、ユーザ端末２からの発話の内容が音声データである場合には、制御部１１は、当該音声データをテキストデータに変換してもよい。なお、音声データからテキストデータへの変換はセンタサーバ１が行ってもよいし、外部サーバに依頼
して行ってもよい。

制御部１１は、位置情報からユーザ端末２が位置する国の使用言語である第１の言語を特定する。制御部１１は、第１の言語と発話の言語とが異なる場合には、発話の内容のテキストデータを発話の言語から第１の言語へと翻訳するように翻訳制御部１２に指示する。

翻訳制御部１２から、第１の言語への翻訳後の発話の内容のテキストデータの入力を受けると、制御部１１は、第１の言語に対応する意図理解エンジンに当該テキストデータを出力する。意図理解エンジンから発話の内容の解析結果の入力を受けると、制御部１１は、サービス判定部１３に当該解析結果を出力し、提供するサービスの判定を依頼する。

なお、第１実施形態では、サービス判定部１３は、１つの言語に対応する。そのため、サービス判定部１３へ発話の内容の解析結果を入力する前に、制御部１１は、サービス判定部１３の使用言語と、第１の言語とが同じであるか否かを判定する。サービス判定部１３の使用言語を、以下、サービス判定言語と称する。サービス判定言語は、「第２の言語」の一例である。

サービス判定言語と第１の言語とが異なる場合には、制御部１１は、第１の言語である発話の内容の解析結果を、サービス判定言語へと、翻訳制御部１２を通じて翻訳し、サービス判定言語へと翻訳された発話の内容をサービス判定部１３へ出力する。なお、複数の言語それぞれについてサービス判定部１３が用意される場合には、第１の言語に対応するサービス判定部１３を選択して第１の言語に翻訳された発話の内容の解析結果を入力すればよい。

制御部１１は、サービス判定部１３によって提供するサービスが判定されると、該当のサービスに発話の内容に従った処理を行うように指示する。当該サービスの処理の結果の入力を受けると、制御部１１は、ユーザ端末２への応答を作成する。応答は、サービス判定言語で作成される。サービス判定言語と発話の言語とが異なる場合には、応答は発話の言語へと翻訳される。なお、応答はテキストデータで作成される。制御部１１は、作成した応答をユーザ端末２へ送信する。

翻訳制御部１２は、制御部１１からの指示に従って、指定された言語へ指定されたデータの翻訳を、翻訳サーバ３へ依頼し、翻訳サーバ３から翻訳されたデータを取得する。翻訳制御部１２は、取得した翻訳後のデータを制御部１１へ出力する。

サービス判定部１３は、制御部１１からの指示に従って、発話の内容が意図するサービスを判定する。サービス判定部１３は、例えば、１つの言語に対応している。なお、第１実施形態ではサービス判定部１３は１つしか備えられていないので、第１の言語とサービス判定言語が異なる場合には、第１の言語に翻訳された発話の内容は、再度サービス判定言語に翻訳されてからサービス判定部１３へ入力される。

意図理解エンジン群１４は、例えば、日本語に対応した意図理解エンジン１４Ａ、英語に対応した意図理解エンジン１４Ｂ、フランス語に対応した意図理解エンジン１４Ｃ、及び、イタリア語に対応した意図理解エンジン１４Ｄ等を含む。各意図理解エンジンは、それぞれ、対応する言語の様々な辞書データベースを保持しており、当該データベースを参照して、発話の内容の意図を推定する。意図理解エンジンが保持する辞書データベースには、例えば、施設名及び建物名等の辞書データベース、各地方の方言の辞書データベース、及び、スラングの辞書データベース等がある。意図理解エンジンが保持する辞書データベースはこれらに限定されない。

具体的には、意図理解エンジンは、入力されたテキストデータに対して、単語に区切り、各単語にタグ付けを行う形態素解析を行う。単語のタグ付けとは、例えば、品詞等に分類することである。さらに、意図理解エンジンは、入力テキストデータから、ユーザが求めている動作であるタスクと、タスクのパラメータとなる情報を格納するスロットに該当する単語を抽出する。当該タスクとスロットの情報とから、サービス判定が行われる。

サービス群１５は、センタサーバ１が提供する複数のサービスのアプリケーションを含む。例えば、サービス群１５には、スケジューラ及びナビゲーション等のアプリケーションが含まれている。

なお、図３に示されるセンタサーバ１の機能構成は一例であって、これに限定されない。また、センタサーバ１の機能構成要素は、例えば、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアによっても実現可能である。

図４は、センタサーバ１の対話制御処理のフローチャートの一例である。図４に示される処理は、例えば、所定の周期で繰り返し実行される。図４に示される処理の実行主体はセンタサーバ１のＣＰＵ１０１であるが、便宜上、機能構成要素を主体として説明する。

ＯＰ１０１では、制御部１１は、ユーザ端末２から対話制御要求を受信したか否かを判定する。対話制御要求を受信した場合には（ＯＰ１０１：ＹＥＳ）、処理がＯＰ１０２に進む。対話制御要求を受信していない場合には（ＯＰ１０１：ＮＯ）、図４に示される処理が終了する。対話要求制御とともに、例えば、発話の内容のテキストデータ、及び、一情報が受信される。

ＯＰ１０２では、制御部１１は、ユーザ端末２の位置情報から、ユーザ端末２が位置する国を特定し、当該国の使用言語を第１の言語として特定する。ＯＰ１０３では、制御部１１は、第１の言語と発話の言語とが一致するか否かを判定する。発話の言語は、例えば、テキストデータの文字コード等によって判別される。第１の言語と発話の言語とが一致する場合には（ＯＰ１０３：ＹＥＳ）、処理がＯＰ１０５に進む。第１の言語と発話の言語とが一致しない場合には（ＯＰ１０３：ＮＯ）、処理がＯＰ１０４に進む。

ＯＰ１０４では、制御部１１は、翻訳制御部１２に指示し、翻訳サーバ３に発話の内容を第１の言語に翻訳してもらう。ＯＰ１０５では、制御部１１は、第１の言語に翻訳後の発話の内容を、第１の言語に対応する意図理解エンジンに入力し、解析させる。

ＯＰ１０６では、制御部１１は、第１の言語とサービス判定言語とが一致するか否かを判定する。第１の言語とサービス判定言語とが一致する場合には（ＯＰ１０６：ＹＥＳ）、処理がＯＰ１０８に進む。第１の言語とサービス判定言語とが一致しない場合には（ＯＰ１０６：ＮＯ）、処理がＯＰ１０７に進む。

ＯＰ１０７では、制御部１１は、翻訳制御部１２に指示し、翻訳サーバ３に、第１の言語の意図理解エンジンによる発話の内容の解析結果を、サービス判定言語へと翻訳してもらう。ＯＰ１０８では、制御部１１は、サービス判定言語の発話内容の解析結果を、サービス判定部１３に入力し、発話の内容が意図するサービスを判定してもらい、処理を行う。ＯＰ１０９では、制御部１１は、サービスの処理の結果を含む応答をサービス判定言語で作成する。

ＯＰ１１０では、制御部１１は、サービス判定言語と発話の言語とが一致するか否かを
判定する。サービス判定言語と発話の言語とが一致する場合には（ＯＰ１１０：ＹＥＳ）、処理がＯＰ１１２に進む。サービス判定言語と発話の言語とが一致しない場合には（ＯＰ１１０：ＮＯ）、処理がＯＰ１１１に進む。ＯＰ１１１では、制御部１１は、翻訳制御部１２に指示し、翻訳サーバ３に、応答の内容を発話の言語に翻訳してもらう。

ＯＰ１１２では、制御部１１は、発話の言語に翻訳された応答をユーザ端末２へ送信する。ＯＰ１１２の処理は、「サービスに関して、前記発話の言語による案内を行うこと」の一例である。その後、図４に示される処理が終了する。

なお、センタサーバ１の対話制御処理は図４に示される例に限定されない。例えば、サービス群１５の各サービスに使用言語が設定されている場合には、ＯＰ１０８におけるサービス処理は、設定されている言語で行われてもよい。

図５は、対話制御処理の具体例を示す図である。図５に示される具体例では、発話の言語は英語であり、サービス判定言語は日本語であることを想定する。図５では、図４に示される対話制御処理のフローチャートの各処理に応じて、発話の内容又は処理の内容が示されている。

ＯＰ１０１において、センタサーバ１は、対話制御要求と、発話の内容“Register Lepant schedule from 10:00 tomorrow”というテキストデータと、ユーザ端末２の位置情報とを受信する。ユーザ端末２の位置情報はイタリアを示していることを想定する。なお、発話の文章であるため、文法等は正しくない可能性がある。なお、発話の内容中の“Lepant”は、イタリア語であり、イタリアの駅の一つである。

ＯＰ１０２において、センタサーバ１は、ユーザ端末２の位置情報がイタリアを示していることから、第１の言語をイタリア語と特定する。

ＯＰ１０３では、センタサーバ１は、発話の言語は英語であり、第１の言語はイタリア語であるため、発話の言語と第１の言語とは一致しないことを判定する（ＯＰ１０３：ＮＯ）。

ＯＰ１０４では、センタサーバ１は、翻訳サーバ３に、発話の内容を第１の言語であるイタリア語へ翻訳してもらう。その結果、“Registra il programma Lepant dalle 10:00
domani”というイタリア語のテキストデータが取得される。

ＯＰ１０５では、センタサーバ１は、イタリア語に翻訳された発話の内容をイタリア語の意図理解エンジン１４Ｄに入力して解析させる。その結果、“Registra | il | programma |Lepant | dalle | 10:00 domani”と形態素解析される。「｜」は形態素解析の結果、形態素の区切りを示すものである。意図理解エンジン１４Ｄは、さらに、各単語に対して、“★｜冠詞｜★｜件名｜助詞｜開始日時”というタグを付与される。なお、★は、タスクを示すワードであることを示すタグである。すなわち、図５に示される例では、“Registra”及び“programma”（予定を登録）がタスクとして抽出される。また、“Registra”及び“programma”というタスクに対するスロットとして「件名」と「開始日時」があり、発話の内容において、それぞれ、“Lepant”と“10:00 domani”とにタグ付けがなされている。

ＯＰ１０６では、センタサーバ１は、サービス判定言語が日本語であり、第１の言語がイタリア語であるため、サービス判定言語と第１の言語とが一致していないことを判定する（ＯＰ１０６：ＮＯ）。

ＯＰ１０７では、センタサーバ１は、翻訳サーバ３に、第１の言語に翻訳されている発話の内容をサービス判定言語である日本語へ翻訳してもらう。その結果、“登録｜その｜予定｜Lepant｜から｜明日の10:00”という日本語のテキストデータが取得される。なお
、“Lepant”は、スロット「件名」に当てはまるパラメータであるので、サービス判定言語への翻訳対象から除外される。ただし、これに限定されず、件名に該当する文言によっては、サービス判定言語へと翻訳されてもよい。

ＯＰ１０８では、センタサーバ１は、日本語のサービス判定を行う。図５に示される例では、タスクが「予定を登録」であるので、サービスとしてスケジューラが選択される。また、「予定を登録」というタスクに対して、スロットとして「開始日時：明日の１０時」と「件名：Lepant」が抽出されているので、“明日の１０：００にLepant”という予定が登録される。なお、この時、スケジューラの使用言語として、英語が設定されている場合には、英語でスケジュールの登録が行われる。

ＯＰ１０９では、センタサーバ１は、スケジューラのサービス（予定の登録）の成功を検出し、“明日の予定を登録しました”という応答のテキストデータを作成する。なお、この応答は、サービス判定言語で作成される。

ＯＰ１１０では、センタサーバ１は、発話言語が英語であり、サービス判定言語が日本語であるため、発話言語とサービス判定言語とが一致していないことを判定する（ＯＰ１１０：ＮＯ）。

ＯＰ１１１では、センタサーバ１は、翻訳サーバ３に、サービス判定言語である日本語の応答の内容を発話言語である英語へ翻訳してもらう。その結果、“Registered tomorrow’s schedule”という英語のテキストデータが取得される。ＯＰ１１２では、センタサ
ーバ１は、応答をユーザ端末２へ送信する。

＜第１実施形態の作用効果＞
例えば、図５に示される例において、発話の言語である英語の意図理解エンジンによって発話の内容が解析された場合には（ＯＰ１０５）、“Lepant”がイタリアの地名（駅名）を示していると認識されず、件名のタグ付けがなされない可能性が高い。すなわち、“Lepant”がスロットに該当すると認識されない可能性が高い。この場合、例えば、スロットが不足することによって、例えば、“目的地はどこですか？”といった不足するスロットを補うための質問がユーザ端末２に返されたり、スケジュールに目的地の位置情報（住所等）が登録されなかったりすることがある。

また、例えば、イタリア国内の目的地の名前と綴りが同じ地名が、英語圏の他の国も存在する場合には、発話の言語である英語の意図理解エンジンによって発話の内容が解析されることで、スケジュールに目的地の位置情報として、該他の国の同じ地名の場所の情報が登録されたりする可能性がある。

発話の言語ではなく、発話時のユーザ端末２の位置情報が示す国の使用言語の意図理解エンジンによって発話の内容が解析されることによって、上記のような意図理解の違い及び誤処理の発生を抑制することができる。これによって、発話の内容の意図理解の精度を向上させることができる。なお、第１実施形態によれば、発話の内容中のスロットに該当する単語だけでなく、タスクに該当する単語等、意図理解のキーワードとなる単語の取りこぼしを抑制することができ、意図理解の精度を向上させることができる。

また、第１実施形態では、サービス判定の言語を１つの言語に統一することによって、センタサーバ１は複数のサービス判定のためのエンジン等を有することがなくなり、セン
タサーバ１のリソースを有効活用することができる。

＜その他の実施形態＞
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。

第１実施形態では、ユーザ端末２の位置情報に基づいて、第１の言語が特定されるが、第１の言語の特定材料はユーザ端末２の位置情報に限定されない。例えば、センタサーバ１は、ユーザ端末２の場所に関する嗜好を示す情報を蓄積しており、場所に関する嗜好を示す情報に基づいて、第１の言語を特定するようにしてもよい。場所に関する嗜好を示す情報は、例えば、場所に関連する検索履歴、スケジュール情報の目的地、及び、ユーザ端末２へのプッシュ通知の履歴等である。センタサーバ１は、これらの情報から、各国の出現数のランキングを作成し、例えば、上位Ｎ位以内の国から選択された国の使用言語を第１の言語として特定してもよい。また、センタサーバ１は、例えば、ユーザ端末２の位置情報と、ユーザ端末２の場所に関する嗜好を示す情報と、の双方に基づいて、第１の言語を特定してもよい。例えば、ユーザ端末２の位置情報が示す国が、場所に関する嗜好を示す情報の出現数ランキングの上位Ｎ位以内に入っている場合に、センタサーバ１は、第１の言語としてユーザ端末２の位置情報が示す国の言語を特定するようにしてもよい。

また、第１実施形態では、センタサーバ１は、意図理解エンジン群１４を備えているが、意図理解エンジン群１４は外部サーバが備えているものであってもよい。

本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。

また、１つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。あるいは、異なる装置が行うものとして説明した処理が、１つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成（サーバ構成）によって実現するかは柔軟に変更可能である。

本発明は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する１つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクドライブ（ＨＤＤ）等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤディスク、ブルーレイディスク等）など任意のタイプのディスク、読み込み専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。

１：センタサーバ
２：ユーザ端末
３：翻訳サーバ
１１：制御部
１２：翻訳制御部
１３：サービス判定部
１４：意図理解エンジン群
１５：サービス群
１００：対話制御システム
１０２：メモリ
１０３：外部記憶装置
１０４：通信部

Claims

複数の言語の辞書データベースを保持する、前記複数の言語の意図理解エンジンと、
記憶装置と、
第１のユーザのスケジュール情報、及び、前記第１のユーザへの配信情報の履歴を前記記憶装置に蓄積することと、
前記第１のユーザの発話が入力された第１の装置から送信された、前記発話の内容の音声データを受信することと、
前記記憶装置に蓄積された、前記第１のユーザのスケジュール情報、又は、前記第１のユーザへの配信情報の履歴の少なくとも一つにおける国の出現数のランキングである、前記第１のユーザの場所に関する嗜好を示す情報を作成することと、
前記第１のユーザの場所に関する嗜好を示す情報に基づいて、前記国の出現数のランキングの一位の国の使用言語を、入力された発話の内容を翻訳する第１の言語として特定することと、
前記発話の内容の音声データを、前記発話の内容のテキストデータに変換することと、
前記発話の内容のテキストデータの文字コードにより、前記第１の言語と前記発話の言語とが一致するか否かを判定することと、
前記第１の言語と前記発話の言語とが一致しないと判定した場合に、前記発話の内容のテキストデータを前記第１の言語で翻訳することと、
前記複数の言語の意図理解エンジンの中から、前記第１の言語に対応する意図理解エンジンを選択することと、
前記複数の言語の辞書データベースのうちの、前記第１の言語に対応する意図理解エンジンの辞書データベースを用いて、前記第１の言語で翻訳された前記発話の内容のテキストデータに対して形態素解析を行うことと、
前記形態素解析が行われた前記発話の内容のテキストデータから、前記第１のユーザが求めている動作であるタスクに該当する単語と、前記タスクのパラメータとなる情報が格納されるスロットに該当する単語を抽出することと、
前記タスクに該当する単語、及び、前記スロットに該当する単語に基づいて、前記発話の内容の意図を推定することと、
前記推定された意図に基づいて、提供するサービスを選択することと、
前記サービスに関して、前記発話の言語による案内を行うことと、
を実行する制御部と、
を備える情報処理装置。
前記制御部は、
前記第１の言語で推定された前記意図を、前記サービスの選択に用いられる第２の言語に翻訳することと、
前記第２の言語に翻訳された前記意図に基づいて、提供するサービスを選択する、
請求項１に記載の情報処理装置。
複数の言語の辞書データベースを保持する、前記複数の言語の意図理解エンジンと、記憶装置とを備えるコンピュータが、
第１のユーザのスケジュール情報、及び、前記第１のユーザへの配信情報の履歴を前記記憶装置に蓄積することと、
前記第１のユーザの発話が入力された第１の装置から送信された、前記発話の内容の音声データを受信することと、
前記記憶装置に蓄積された、前記第１のユーザのスケジュール情報、又は、前記第１のユーザへの配信情報の履歴の少なくとも一つにおける国の出現数のランキングである、前記第１のユーザの場所に関する嗜好を示す情報を作成することと、
前記第１のユーザの場所に関する嗜好を示す情報に基づいて、前記国の出現数のランキングの一位の国の使用言語を、入力された発話の内容を翻訳する第１の言語として特定することと、
前記発話の内容の音声データを、前記発話の内容のテキストデータに変換することと、
前記発話の内容のテキストデータの文字コードにより、前記第１の言語と前記発話の言語とが一致するか否かを判定することと、
前記第１の言語と前記発話の言語とが一致しないと判定した場合に、前記発話の内容のテキストデータを前記第１の言語で翻訳することと、
前記複数の言語の意図理解エンジンの中から、前記第１の言語に対応する意図理解エンジンを選択することと、
前記複数の言語の辞書データベースのうちの、前記第１の言語に対応する意図理解エンジンの辞書データベースを用いて、前記第１の言語で翻訳された前記発話の内容のテキストデータに対して形態素解析を行うことと、
前記形態素解析が行われた前記発話の内容のテキストデータから、前記第１のユーザが求めている動作であるタスクに該当する単語と、前記タスクのパラメータとなる情報が格納されるスロットに該当する単語を抽出することと、
前記タスクに該当する単語、及び、前記スロットに該当する単語に基づいて、前記発話の内容の意図を推定することと、
前記推定された意図に基づいて、提供するサービスを選択することと、
前記サービスに関して、前記発話の言語による案内を行うことと、
を実行する情報処理方法。
前記コンピュータが、
前記第１の言語で推定された前記意図を、前記サービスの選択に用いられる第２の言語に翻訳することと、
前記第２の言語に翻訳された前記意図に基づいて、提供するサービスを選択すること、を実行する、
請求項３に記載の情報処理方法。
請求項３又は４に記載の情報処理方法をコンピュータに実行させるためのプログラム。
コンピュータに、
入力された第１のユーザの発話の内容の音声データを、複数の言語の辞書データベースを保持する、前記複数の言語の意図理解エンジンと、記憶装置とを備えるサーバに送信することと、
前記サーバによって、前記第１のユーザのスケジュール情報、及び、前記第１のユーザへの配信情報の履歴が前記記憶装置に蓄積され、前記発話の内容の音声データが受信され、前記記憶装置に蓄積された、前記第１のユーザのスケジュール情報、又は、前記第１のユーザへの配信情報の履歴の少なくとも一つにおける国の出現数のランキングである、前記第１のユーザの場所に関する嗜好を示す情報が作成され、前記第１のユーザの場所に関する嗜好を示す情報に基づいて、前記国の出現数のランキングの一位の国の使用言語が、入力された発話の内容を翻訳する第１の言語として特定され、前記発話の内容の音声データが、前記発話の内容のテキストデータに変換され、前記発話の内容のテキストデータの文字コードにより、前記第１の言語と前記発話の言語とが一致するか否かが判定され、前記第１の言語と前記発話の言語とが一致しないと判定された場合に、前記第１の言語によって前記発話の内容のテキストデータが翻訳され、前記複数の言語の意図理解エンジンの中から、前記第１の言語に対応する意図理解エンジンが選択され、前記複数の言語の辞書データベースのうちの、前記第１の言語に対応する意図理解エンジンの辞書データベースを用いて、前記第１の言語で翻訳された前記発話の内容のテキストデータに対して形態素解析が行われ、前記形態素解析が行われた前記発話の内容のテキストデータから、前記第１のユーザが求めている動作であるタスクに該当する単語と、前記タスクのパラメータとなる情報が格納されるスロットに該当する単語が抽出され、前記タスクに該当する単語、及び、前記スロットに該当する単語に基づいて、前記発話の内容の意図が推定され、前記推定された意図に基づいて、サービスが選択され、送信された、前記サービスに関する前記発話の言語による案内を受信することと、
を実行させるためのプログラム。