JP7434978B2 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP7434978B2
JP7434978B2 JP2020020577A JP2020020577A JP7434978B2 JP 7434978 B2 JP7434978 B2 JP 7434978B2 JP 2020020577 A JP2020020577 A JP 2020020577A JP 2020020577 A JP2020020577 A JP 2020020577A JP 7434978 B2 JP7434978 B2 JP 7434978B2
Authority
JP
Japan
Prior art keywords
language
utterance
content
user
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020020577A
Other languages
English (en)
Other versions
JP2021124709A (ja
Inventor
敬滋 堀
浩司 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2020020577A priority Critical patent/JP7434978B2/ja
Priority to US17/163,633 priority patent/US11626100B2/en
Priority to CN202110177319.1A priority patent/CN113312927B/zh
Publication of JP2021124709A publication Critical patent/JP2021124709A/ja
Application granted granted Critical
Publication of JP7434978B2 publication Critical patent/JP7434978B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Machine Translation (AREA)

Description

本開示は、情報処理装置、情報処理方法、及び、プログラムに関する。
複数の言語の地図情報及び音声案内情報を備え、携帯電話端末機に設定されている使用言語の地図情報及び音声案内情報を用いてナビゲーション制御を行う多言語対応ナビゲーション装置が開示されている(例えば、特許文献1)。
特開2008-096289号公報
しかしながら、例えば、ユーザの発話に複数の言語が入り混じった場合に、携帯端末機に設定されている言語又は発話の言語の地図情報及び音声案内情報では、発話の意図の理解の精度が低下するおそれがある。
開示の態様の一つは、発話の内容の意図理解の精度を向上可能な情報処理装置、情報処理方法、及び、プログラムを提供することを課題とする。
本開示の態様の一つは、
入力された発話に関する場所に関連のある第1の情報に基づいて、前記発話の内容を翻訳する第1の言語を特定することと、
前記第1の言語で翻訳された前記発話の内容に基づいて、前記発話の内容の意図を推定することと、
前記推定された意図に基づいて、提供するサービスを選択することと、
前記サービスに関して、前記発話の言語による案内を行うことと、
を実行する制御部、
を備える情報処理装置である。
本開示の他の態様の一つは、
場所に関する第1の情報に基づいて、入力された発話の内容を翻訳する第1の言語を特定することと、
前記第1の言語で翻訳された前記発話の内容に基づいて、前記発話の内容の意図を推定することと、
前記推定された意図に基づいて、提供するサービスを選択することと、
前記サービスに関して、前記発話の言語による案内を行うことと、
を実行する情報処理方法である。
本開示の他の態様の一つは、
コンピュータに、
入力された発話の内容をサーバに送信することと、
前記サーバによって、場所に関する第1の情報に基づいて特定された第1の言語によって前記発話の内容が翻訳され、前記第1の言語で翻訳された前記発話の内容に基づいて、前記発話の内容の意図が推定され、前記推定された意図に基づいて、前記サービスが選択さ
れ、送信された、前記サービスに関する前記発話の言語による案内を受信することと、
を実行させるためのプログラムである。
本開示によれば、発話の内容の意図理解の精度を向上させることができる。
図1は、第1実施形態に係る対話制御システムのシステム構成の一例を示す図である。 図2は、センタサーバのハードウェア構成の一例を示す図である。 図3は、センタサーバの機能構成の一例を示す図である。 図4は、センタサーバの対話制御処理のフローチャートの一例である。 図5は、対話制御処理の具体例を示す図である。
音声によって装置に命令を行う際には、例えば、入力された発話の意図を理解するための意図理解エンジンが用いられることが多い。1つの意図理解エンジンは、1つの言語に対応していることが多い。一方、発話には、複数の言語が入り混じる場合がある。例えば、外国に滞在中、母国語の中に滞在先の国の地名のローカルな通称が混じる、等である。通常、意図理解エンジンは、発話の言語に対応したものが利用されることが多いが、発話に複数の言語が混じっている場合には、その意図を精度よく理解することは困難であることが多い。
そこで、本開示の態様の一つでは、情報処理装置は、発話に関する場所に関連のある第1の情報に基づいて、発話の内容を第1の言語に翻訳し、第1の言語に翻訳された発話の内容に基づいて、発話の内容の意図の推定を行う。
具体的には、本開示の態様の一つは、入力された発話に関する場所に関連のある第1の情報に基づいて、発話の内容を翻訳する第1の言語を特定することと、第1の言語で翻訳された発話の内容に基づいて、発話の内容の意図を推定することと、推定された意図に基づいて、提供するサービスを選択することと、当該サービスに関して、発話の言語による案内を行うことと、を実行する制御部、を備える情報処理装置である。第1の言語は、発話の言語とは異なる。
情報処理装置は、例えば、サーバである。ただし、情報処理装置はサーバに限定されず、例えば、スマートフォン、タブレット端末、PC(Personal Computer)、カーナビゲ
ーションシステム等のユーザ端末であってもよい。制御部は、例えば、プロセッサである。発話に関する場所に関連のある第1の情報は、例えば、発話が入力された装置の位置情報、及び、発話が入力された装置のユーザの場所に関する嗜好を示す情報である。発話が入力された装置と情報処理装置とが同じ装置であってもよい。発話が入力された装置のユーザの場所に関する嗜好を示す情報は、例えば、検索履歴、スケジュール情報、又は、配信情報の履歴の少なくとも一つにおける国の出現数のランキングである。
例えば、第1の情報が、発話が入力された装置の位置情報である場合には、第1の言語は、当該位置情報が示す国における使用言語である。例えば、第1の情報が、発話が入力された装置のユーザの検索履歴における国の出現数ランキングである場合には、第1の言語は、当該ランキングの一位の国の使用言語である。
発話の内容の意図の推定には、例えば、意図理解エンジンが用いられてもよい。情報処理装置は、発話の内容の意図の推定に、第1の言語に対応する意図理解エンジンを用いてもよい。
本開示の態様の一つでは、場所に関する第1の情報に基づいて特定された第1の言語で翻訳された発話の内容に基づいて、発話の内容の意図の推定が行われる。これによって、例えば、発話の内容に複数の言語が混ざっており、その中に第1の言語特有の文言があるような場合には、発話の意図がより精度良く理解されることができる。
以下、図面に基づいて、本発明の実施の形態を説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成に限定されない。
<第1実施形態>
図1は、第1実施形態に係る対話制御システム100のシステム構成の一例を示す図である。対話制御システム100は、ユーザの音声を認識し、当該音声に含まれる処理の指示に従って、当該処理を行うサービスを提供するシステムである。対話制御システム100は、例えば、センタサーバ1、ユーザ端末2、及び、翻訳サーバ3を備える。センタサーバ1、ユーザ端末2、及び、翻訳サーバ3は、それぞれ、ネットワークN1に接続しており、ネットワークN1を通じて通信可能である。
ユーザ端末2は、例えば、スマートフォン、タブレット端末、PC、又は、カーナビゲーションシステム等の車載装置である。ユーザ端末2は、例えば、処理の指示を含む音声に従って当該処理を実行するサービスのインタフェースを提供する対話制御アプリケーションをインストールしている。ユーザ端末2は、例えば、当該対話制御アプリケーションを通じてユーザから入力された発話音声をテキストに変換し、テキストに変換された発話内容と対話制御要求とをセンタサーバ1へ送信する。また、第1実施形態では、対話制御要求とともに、ユーザ端末2の位置情報もセンタサーバ1へ送信される。
センタサーバ1は、ユーザ端末2から受信される対話制御要求に応じて、発話内容から処理の指示を認識し、当該処理を行うサービスを提供する。具体的には、センタサーバ1は、ユーザ端末2から受信された発話の内容を意図理解エンジンによって解析し、当該発話の内容に含まれる処理の指示を特定して実行し、実行結果をユーザ端末2へ送信する。処理の実行結果をユーザ端末2へ送信することは、「サービスに関して」「案内を行う」ことの一例である。
第1実施形態では、センタサーバ1は、発話の内容を意図理解エンジンに入力する前に、ユーザ端末2の位置情報が示す国の使用言語である第1の言語と、発話の言語とが同じであるか否かを判定する。第1の言語と発話の言語とが異なる場合には、センタサーバ1は、発話の内容を第1の言語に翻訳し、第1の言語に翻訳後の発話の内容を第1の言語に対応する意図理解エンジンによって解析する。センタサーバ1は、翻訳に外部の翻訳サーバ3を使用する。翻訳サーバ3は、センタサーバ1によって指定された言語へ指定されたデータを翻訳する。
例えば、海外に旅行に行っている場合には、発話の言語と、ユーザ端末2の位置情報が示す国の使用言語とが異なる。旅行先で対話制御システム100のサービスを用いる場合に、発話内容に旅行先の国に特有の文言が含まれるような場合には、発話の言語での意図理解エンジンでは、その意図を正しく理解できないことがある。旅行先の国に特有の文言とは、例えば、観光名所の通称、その国に特有の食べ物及び料理の名称、国の地方の方言等である。そこで、第1実施形態では、発話の内容を旅行先の国の使用言語に翻訳し、翻訳後の発話の内容を旅行先の国の使用言語の意図理解エンジンで解析する。これによって、例えば、発話の言語では理解しきれない文言を理解することができたり、発話の意図を示す文言の取りこぼしを抑制することができたりして、発話の意図の理解の精度を向上させることができる。
図2は、センタサーバ1のハードウェア構成の一例を示す図である。センタサーバ1は、ハードウェア構成として、CPU(Central Processing Unit)101、メモリ102
、外部記憶装置103、及び、通信部104を有する。メモリ102および外部記憶装置103は、コンピュータで読み取り可能な記録媒体である。センタサーバ1は、「情報処理装置」の一例である。
外部記憶装置103は、様々なプログラムや、各プログラムの実行に際してCPU 101が使用するデータを格納する。外部記憶装置103は、例えば、EPROM(Erasable Programmable ROM)やハードディスクドライブ(Hard Disk Drive)である。外部記憶装置103に保持されるプログラムには、例えば、オペレーティングシステム(OS)、対話制御プログラム、その他様々なアプリケーションプログラムを保持する。対話制御プログラムは、発話の内容から処理の指示を認識し、当該処理を実行するためのプログラムである。
メモリ102は、CPU 101に、外部記憶装置103に格納されているプログラムをロードする記憶領域および作業領域を提供したり、バッファとして用いられたりする記憶装置である。メモリ102は、例えば、ROM(Read Only Memory)、RAM(Random
Access Memory)のような半導体メモリを含む。
CPU 101は、外部記憶装置103に保持されたOSや様々なアプリケーションプログラムをメモリ102にロードして実行することによって、様々な処理を実行する。CPU 101は、1つに限られず、複数備えられてもよい。CPU 101は、「情報処理装置」の「制御部」の一例である。
通信部104は、ネットワークとの情報の入出力を行うインタフェースである。通信部104は、有線のネットワークと接続するインタフェースであってもよいし、無線のネットワークと接続するインタフェースであってもよい。通信部104は、例えば、NIC(Network Interface Card)や無線回路等である。なお、センタサーバ1のハードウェア構成は、図2に示されるものに限定されない。
なお、ユーザ端末2も、センタサーバ1と同様に、CPU、メモリ、外部記憶装置、通信部を有するため、その図示を省略する。ユーザ端末2には、例えば、対話制御アプリケーションと音声テキスト変換アプリケーションとがインストールされており、これらのアプリケーションの実行によって、発話の音声データをテキストデータに変換した発話の内容と、対話制御要求とをセンタサーバ1へ送信する。なお、ユーザ端末2が音声テキスト変換アプリケーションを備えていない場合には、発話の音声データを送信してもよい。また、ユーザ端末2は、例えば、GPS(Global Positioning System)受信部のような位
置情報の取得手段を備えており、対話制御要求とともに位置情報もセンタサーバ1へ送信する。
図3は、センタサーバ1の機能構成の一例を示す図である。センタサーバ1は、機能構成要素として、制御部11、翻訳制御部12、サービス判定部13、意図理解エンジン群14、及び、サービス群15を備える。これらの機能構成要素は、例えば、センタサーバ1のCPU 101が所定のプログラムを実行することによって達成される。
制御部11は、ユーザ端末2から、対話制御要求と、発話の内容のテキストデータと、位置情報と、を受信する。なお、ユーザ端末2からの発話の内容が音声データである場合には、制御部11は、当該音声データをテキストデータに変換してもよい。なお、音声データからテキストデータへの変換はセンタサーバ1が行ってもよいし、外部サーバに依頼
して行ってもよい。
制御部11は、位置情報からユーザ端末2が位置する国の使用言語である第1の言語を特定する。制御部11は、第1の言語と発話の言語とが異なる場合には、発話の内容のテキストデータを発話の言語から第1の言語へと翻訳するように翻訳制御部12に指示する。
翻訳制御部12から、第1の言語への翻訳後の発話の内容のテキストデータの入力を受けると、制御部11は、第1の言語に対応する意図理解エンジンに当該テキストデータを出力する。意図理解エンジンから発話の内容の解析結果の入力を受けると、制御部11は、サービス判定部13に当該解析結果を出力し、提供するサービスの判定を依頼する。
なお、第1実施形態では、サービス判定部13は、1つの言語に対応する。そのため、サービス判定部13へ発話の内容の解析結果を入力する前に、制御部11は、サービス判定部13の使用言語と、第1の言語とが同じであるか否かを判定する。サービス判定部13の使用言語を、以下、サービス判定言語と称する。サービス判定言語は、「第2の言語」の一例である。
サービス判定言語と第1の言語とが異なる場合には、制御部11は、第1の言語である発話の内容の解析結果を、サービス判定言語へと、翻訳制御部12を通じて翻訳し、サービス判定言語へと翻訳された発話の内容をサービス判定部13へ出力する。なお、複数の言語それぞれについてサービス判定部13が用意される場合には、第1の言語に対応するサービス判定部13を選択して第1の言語に翻訳された発話の内容の解析結果を入力すればよい。
制御部11は、サービス判定部13によって提供するサービスが判定されると、該当のサービスに発話の内容に従った処理を行うように指示する。当該サービスの処理の結果の入力を受けると、制御部11は、ユーザ端末2への応答を作成する。応答は、サービス判定言語で作成される。サービス判定言語と発話の言語とが異なる場合には、応答は発話の言語へと翻訳される。なお、応答はテキストデータで作成される。制御部11は、作成した応答をユーザ端末2へ送信する。
翻訳制御部12は、制御部11からの指示に従って、指定された言語へ指定されたデータの翻訳を、翻訳サーバ3へ依頼し、翻訳サーバ3から翻訳されたデータを取得する。翻訳制御部12は、取得した翻訳後のデータを制御部11へ出力する。
サービス判定部13は、制御部11からの指示に従って、発話の内容が意図するサービスを判定する。サービス判定部13は、例えば、1つの言語に対応している。なお、第1実施形態ではサービス判定部13は1つしか備えられていないので、第1の言語とサービス判定言語が異なる場合には、第1の言語に翻訳された発話の内容は、再度サービス判定言語に翻訳されてからサービス判定部13へ入力される。
意図理解エンジン群14は、例えば、日本語に対応した意図理解エンジン14A、英語に対応した意図理解エンジン14B、フランス語に対応した意図理解エンジン14C、及び、イタリア語に対応した意図理解エンジン14D等を含む。各意図理解エンジンは、それぞれ、対応する言語の様々な辞書データベースを保持しており、当該データベースを参照して、発話の内容の意図を推定する。意図理解エンジンが保持する辞書データベースには、例えば、施設名及び建物名等の辞書データベース、各地方の方言の辞書データベース、及び、スラングの辞書データベース等がある。意図理解エンジンが保持する辞書データベースはこれらに限定されない。
具体的には、意図理解エンジンは、入力されたテキストデータに対して、単語に区切り、各単語にタグ付けを行う形態素解析を行う。単語のタグ付けとは、例えば、品詞等に分類することである。さらに、意図理解エンジンは、入力テキストデータから、ユーザが求めている動作であるタスクと、タスクのパラメータとなる情報を格納するスロットに該当する単語を抽出する。当該タスクとスロットの情報とから、サービス判定が行われる。
サービス群15は、センタサーバ1が提供する複数のサービスのアプリケーションを含む。例えば、サービス群15には、スケジューラ及びナビゲーション等のアプリケーションが含まれている。
なお、図3に示されるセンタサーバ1の機能構成は一例であって、これに限定されない。また、センタサーバ1の機能構成要素は、例えば、FPGA(Field Programmable Gate Array)などのハードウェアによっても実現可能である。
図4は、センタサーバ1の対話制御処理のフローチャートの一例である。図4に示される処理は、例えば、所定の周期で繰り返し実行される。図4に示される処理の実行主体はセンタサーバ1のCPU 101であるが、便宜上、機能構成要素を主体として説明する。
OP101では、制御部11は、ユーザ端末2から対話制御要求を受信したか否かを判定する。対話制御要求を受信した場合には(OP101:YES)、処理がOP102に進む。対話制御要求を受信していない場合には(OP101:NO)、図4に示される処理が終了する。対話要求制御とともに、例えば、発話の内容のテキストデータ、及び、一情報が受信される。
OP102では、制御部11は、ユーザ端末2の位置情報から、ユーザ端末2が位置する国を特定し、当該国の使用言語を第1の言語として特定する。OP103では、制御部11は、第1の言語と発話の言語とが一致するか否かを判定する。発話の言語は、例えば、テキストデータの文字コード等によって判別される。第1の言語と発話の言語とが一致する場合には(OP103:YES)、処理がOP105に進む。第1の言語と発話の言語とが一致しない場合には(OP103:NO)、処理がOP104に進む。
OP104では、制御部11は、翻訳制御部12に指示し、翻訳サーバ3に発話の内容を第1の言語に翻訳してもらう。OP105では、制御部11は、第1の言語に翻訳後の発話の内容を、第1の言語に対応する意図理解エンジンに入力し、解析させる。
OP106では、制御部11は、第1の言語とサービス判定言語とが一致するか否かを判定する。第1の言語とサービス判定言語とが一致する場合には(OP106:YES)、処理がOP108に進む。第1の言語とサービス判定言語とが一致しない場合には(OP106:NO)、処理がOP107に進む。
OP107では、制御部11は、翻訳制御部12に指示し、翻訳サーバ3に、第1の言語の意図理解エンジンによる発話の内容の解析結果を、サービス判定言語へと翻訳してもらう。OP108では、制御部11は、サービス判定言語の発話内容の解析結果を、サービス判定部13に入力し、発話の内容が意図するサービスを判定してもらい、処理を行う。OP109では、制御部11は、サービスの処理の結果を含む応答をサービス判定言語で作成する。
OP110では、制御部11は、サービス判定言語と発話の言語とが一致するか否かを
判定する。サービス判定言語と発話の言語とが一致する場合には(OP110:YES)、処理がOP112に進む。サービス判定言語と発話の言語とが一致しない場合には(OP110:NO)、処理がOP111に進む。OP111では、制御部11は、翻訳制御部12に指示し、翻訳サーバ3に、応答の内容を発話の言語に翻訳してもらう。
OP112では、制御部11は、発話の言語に翻訳された応答をユーザ端末2へ送信する。OP112の処理は、「サービスに関して、前記発話の言語による案内を行うこと」の一例である。その後、図4に示される処理が終了する。
なお、センタサーバ1の対話制御処理は図4に示される例に限定されない。例えば、サービス群15の各サービスに使用言語が設定されている場合には、OP108におけるサービス処理は、設定されている言語で行われてもよい。
図5は、対話制御処理の具体例を示す図である。図5に示される具体例では、発話の言語は英語であり、サービス判定言語は日本語であることを想定する。図5では、図4に示される対話制御処理のフローチャートの各処理に応じて、発話の内容又は処理の内容が示されている。
OP101において、センタサーバ1は、対話制御要求と、発話の内容“Register Lepant schedule from 10:00 tomorrow”というテキストデータと、ユーザ端末2の位置情報とを受信する。ユーザ端末2の位置情報はイタリアを示していることを想定する。なお、発話の文章であるため、文法等は正しくない可能性がある。なお、発話の内容中の“Lepant”は、イタリア語であり、イタリアの駅の一つである。
OP102において、センタサーバ1は、ユーザ端末2の位置情報がイタリアを示していることから、第1の言語をイタリア語と特定する。
OP103では、センタサーバ1は、発話の言語は英語であり、第1の言語はイタリア語であるため、発話の言語と第1の言語とは一致しないことを判定する(OP103:NO)。
OP104では、センタサーバ1は、翻訳サーバ3に、発話の内容を第1の言語であるイタリア語へ翻訳してもらう。その結果、“Registra il programma Lepant dalle 10:00
domani”というイタリア語のテキストデータが取得される。
OP105では、センタサーバ1は、イタリア語に翻訳された発話の内容をイタリア語の意図理解エンジン14Dに入力して解析させる。その結果、“Registra | il | programma |Lepant | dalle | 10:00 domani”と形態素解析される。「|」は形態素解析の結果、形態素の区切りを示すものである。意図理解エンジン14Dは、さらに、各単語に対して、“★|冠詞|★|件名|助詞|開始日時”というタグを付与される。なお、★は、タスクを示すワードであることを示すタグである。すなわち、図5に示される例では、“Registra”及び“programma”(予定を登録)がタスクとして抽出される。また、“Registra”及び“programma”というタスクに対するスロットとして「件名」と「開始日時」があり、発話の内容において、それぞれ、“Lepant”と“10:00 domani”とにタグ付けがなされている。
OP106では、センタサーバ1は、サービス判定言語が日本語であり、第1の言語がイタリア語であるため、サービス判定言語と第1の言語とが一致していないことを判定する(OP106:NO)。
OP107では、センタサーバ1は、翻訳サーバ3に、第1の言語に翻訳されている発話の内容をサービス判定言語である日本語へ翻訳してもらう。その結果、“登録|その|予定|Lepant|から|明日の10:00”という日本語のテキストデータが取得される。なお
、“Lepant”は、スロット「件名」に当てはまるパラメータであるので、サービス判定言語への翻訳対象から除外される。ただし、これに限定されず、件名に該当する文言によっては、サービス判定言語へと翻訳されてもよい。
OP108では、センタサーバ1は、日本語のサービス判定を行う。図5に示される例では、タスクが「予定を登録」であるので、サービスとしてスケジューラが選択される。また、「予定を登録」というタスクに対して、スロットとして「開始日時:明日の10時」と「件名:Lepant」が抽出されているので、“明日の10:00にLepant”という予定が登録される。なお、この時、スケジューラの使用言語として、英語が設定されている場合には、英語でスケジュールの登録が行われる。
OP109では、センタサーバ1は、スケジューラのサービス(予定の登録)の成功を検出し、“明日の予定を登録しました”という応答のテキストデータを作成する。なお、この応答は、サービス判定言語で作成される。
OP110では、センタサーバ1は、発話言語が英語であり、サービス判定言語が日本語であるため、発話言語とサービス判定言語とが一致していないことを判定する(OP110:NO)。
OP111では、センタサーバ1は、翻訳サーバ3に、サービス判定言語である日本語の応答の内容を発話言語である英語へ翻訳してもらう。その結果、“Registered tomorrow’s schedule”という英語のテキストデータが取得される。OP112では、センタサ
ーバ1は、応答をユーザ端末2へ送信する。
<第1実施形態の作用効果>
例えば、図5に示される例において、発話の言語である英語の意図理解エンジンによって発話の内容が解析された場合には(OP105)、“Lepant”がイタリアの地名(駅名)を示していると認識されず、件名のタグ付けがなされない可能性が高い。すなわち、“Lepant”がスロットに該当すると認識されない可能性が高い。この場合、例えば、スロットが不足することによって、例えば、“目的地はどこですか?”といった不足するスロットを補うための質問がユーザ端末2に返されたり、スケジュールに目的地の位置情報(住所等)が登録されなかったりすることがある。
また、例えば、イタリア国内の目的地の名前と綴りが同じ地名が、英語圏の他の国も存在する場合には、発話の言語である英語の意図理解エンジンによって発話の内容が解析されることで、スケジュールに目的地の位置情報として、該他の国の同じ地名の場所の情報が登録されたりする可能性がある。
発話の言語ではなく、発話時のユーザ端末2の位置情報が示す国の使用言語の意図理解エンジンによって発話の内容が解析されることによって、上記のような意図理解の違い及び誤処理の発生を抑制することができる。これによって、発話の内容の意図理解の精度を向上させることができる。なお、第1実施形態によれば、発話の内容中のスロットに該当する単語だけでなく、タスクに該当する単語等、意図理解のキーワードとなる単語の取りこぼしを抑制することができ、意図理解の精度を向上させることができる。
また、第1実施形態では、サービス判定の言語を1つの言語に統一することによって、センタサーバ1は複数のサービス判定のためのエンジン等を有することがなくなり、セン
タサーバ1のリソースを有効活用することができる。
<その他の実施形態>
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
第1実施形態では、ユーザ端末2の位置情報に基づいて、第1の言語が特定されるが、第1の言語の特定材料はユーザ端末2の位置情報に限定されない。例えば、センタサーバ1は、ユーザ端末2の場所に関する嗜好を示す情報を蓄積しており、場所に関する嗜好を示す情報に基づいて、第1の言語を特定するようにしてもよい。場所に関する嗜好を示す情報は、例えば、場所に関連する検索履歴、スケジュール情報の目的地、及び、ユーザ端末2へのプッシュ通知の履歴等である。センタサーバ1は、これらの情報から、各国の出現数のランキングを作成し、例えば、上位N位以内の国から選択された国の使用言語を第1の言語として特定してもよい。また、センタサーバ1は、例えば、ユーザ端末2の位置情報と、ユーザ端末2の場所に関する嗜好を示す情報と、の双方に基づいて、第1の言語を特定してもよい。例えば、ユーザ端末2の位置情報が示す国が、場所に関する嗜好を示す情報の出現数ランキングの上位N位以内に入っている場合に、センタサーバ1は、第1の言語としてユーザ端末2の位置情報が示す国の言語を特定するようにしてもよい。
また、第1実施形態では、センタサーバ1は、意図理解エンジン群14を備えているが、意図理解エンジン群14は外部サーバが備えているものであってもよい。
本開示において説明した処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。
また、1つの装置が行うものとして説明した処理が、複数の装置によって分担して実行されてもよい。あるいは、異なる装置が行うものとして説明した処理が、1つの装置によって実行されても構わない。コンピュータシステムにおいて、各機能をどのようなハードウェア構成(サーバ構成)によって実現するかは柔軟に変更可能である。
本発明は、上記の実施形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する1つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクドライブ(HDD)等)、光ディスク(CD-ROM、DVDディスク、ブルーレイディスク等)など任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納するために適した任意のタイプの媒体を含む。
1 :センタサーバ
2 :ユーザ端末
3 :翻訳サーバ
11 :制御部
12 :翻訳制御部
13 :サービス判定部
14 :意図理解エンジン群
15 :サービス群
100 :対話制御システム
102 :メモリ
103 :外部記憶装置
104 :通信部

Claims (6)

  1. 複数の言語の辞書データベースを保持する、前記複数の言語の意図理解エンジンと、
    記憶装置と、
    第1のユーザのスケジュール情報、及び、前記第1のユーザへの配信情報の履歴を前記記憶装置に蓄積することと、
    前記第1のユーザの発話が入力された第1の装置から送信された、前記発話の内容の音声データを受信することと、
    前記記憶装置に蓄積された、前記第1のユーザのスケジュール情報、又は、前記第1のユーザへの配信情報の履歴の少なくとも一つにおける国の出現数のランキングである、前記第1のユーザの場所に関する嗜好を示す情報を作成することと、
    前記第1のユーザの場所に関する嗜好を示す情報に基づいて、前記国の出現数のランキングの一位の国の使用言語を、入力された発話の内容を翻訳する第1の言語として特定することと、
    前記発話の内容の音声データを、前記発話の内容のテキストデータに変換することと、
    前記発話の内容のテキストデータの文字コードにより、前記第1の言語と前記発話の言語とが一致するか否かを判定することと、
    前記第1の言語と前記発話の言語とが一致しないと判定した場合に、前記発話の内容のテキストデータを前記第1の言語で翻訳することと、
    前記複数の言語の意図理解エンジンの中から、前記第1の言語に対応する意図理解エンジンを選択することと、
    前記複数の言語の辞書データベースのうちの、前記第1の言語に対応する意図理解エンジンの辞書データベースを用いて、前記第1の言語で翻訳された前記発話の内容のテキストデータに対して形態素解析を行うことと、
    前記形態素解析が行われた前記発話の内容のテキストデータから、前記第1のユーザが求めている動作であるタスクに該当する単語と、前記タスクのパラメータとなる情報が格納されるスロットに該当する単語を抽出することと、
    前記タスクに該当する単語、及び、前記スロットに該当する単語に基づいて、前記発話の内容の意図を推定することと、
    前記推定された意図に基づいて、提供するサービスを選択することと、
    前記サービスに関して、前記発話の言語による案内を行うことと、
    を実行する制御部と、
    を備える情報処理装置。
  2. 前記制御部は、
    前記第1の言語で推定された前記意図を、前記サービスの選択に用いられる第2の言語に翻訳することと、
    前記第2の言語に翻訳された前記意図に基づいて、提供するサービスを選択する、
    請求項1に記載の情報処理装置。
  3. 複数の言語の辞書データベースを保持する、前記複数の言語の意図理解エンジンと、記憶装置とを備えるコンピュータが、
    第1のユーザのスケジュール情報、及び、前記第1のユーザへの配信情報の履歴を前記記憶装置に蓄積することと、
    前記第1のユーザの発話が入力された第1の装置から送信された、前記発話の内容の音声データを受信することと、
    前記記憶装置に蓄積された、前記第1のユーザのスケジュール情報、又は、前記第1のユーザへの配信情報の履歴の少なくとも一つにおける国の出現数のランキングである、前記第1のユーザの場所に関する嗜好を示す情報を作成することと、
    前記第1のユーザの場所に関する嗜好を示す情報に基づいて、前記国の出現数のランキングの一位の国の使用言語を、入力された発話の内容を翻訳する第1の言語として特定することと、
    前記発話の内容の音声データを、前記発話の内容のテキストデータに変換することと、
    前記発話の内容のテキストデータの文字コードにより、前記第1の言語と前記発話の言語とが一致するか否かを判定することと、
    前記第1の言語と前記発話の言語とが一致しないと判定した場合に、前記発話の内容のテキストデータを前記第1の言語で翻訳することと、
    前記複数の言語の意図理解エンジンの中から、前記第1の言語に対応する意図理解エンジンを選択することと、
    前記複数の言語の辞書データベースのうちの、前記第1の言語に対応する意図理解エンジンの辞書データベースを用いて、前記第1の言語で翻訳された前記発話の内容のテキストデータに対して形態素解析を行うことと、
    前記形態素解析が行われた前記発話の内容のテキストデータから、前記第1のユーザが求めている動作であるタスクに該当する単語と、前記タスクのパラメータとなる情報が格納されるスロットに該当する単語を抽出することと、
    前記タスクに該当する単語、及び、前記スロットに該当する単語に基づいて、前記発話の内容の意図を推定することと、
    前記推定された意図に基づいて、提供するサービスを選択することと、
    前記サービスに関して、前記発話の言語による案内を行うことと、
    を実行する情報処理方法。
  4. 前記コンピュータが、
    前記第1の言語で推定された前記意図を、前記サービスの選択に用いられる第2の言語に翻訳することと、
    前記第2の言語に翻訳された前記意図に基づいて、提供するサービスを選択すること、を実行する、
    請求項3に記載の情報処理方法。
  5. 請求項3又は4に記載の情報処理方法をコンピュータに実行させるためのプログラム。
  6. コンピュータに、
    入力された第1のユーザの発話の内容の音声データを、複数の言語の辞書データベースを保持する、前記複数の言語の意図理解エンジンと、記憶装置とを備えるサーバに送信することと、
    前記サーバによって、前記第1のユーザのスケジュール情報、及び、前記第1のユーザへの配信情報の履歴が前記記憶装置に蓄積され、前記発話の内容の音声データが受信され、前記記憶装置に蓄積された、前記第1のユーザのスケジュール情報、又は、前記第1のユーザへの配信情報の履歴の少なくとも一つにおける国の出現数のランキングである、前記第1のユーザの場所に関する嗜好を示す情報が作成され、前記第1のユーザの場所に関する嗜好を示す情報に基づいて、前記国の出現数のランキングの一位の国の使用言語が、入力された発話の内容を翻訳する第1の言語として特定され、前記発話の内容の音声データが、前記発話の内容のテキストデータに変換され、前記発話の内容のテキストデータの文字コードにより、前記第1の言語と前記発話の言語とが一致するか否かが判定され、前記第1の言語と前記発話の言語とが一致しないと判定された場合に、前記第1の言語によって前記発話の内容のテキストデータが翻訳され、前記複数の言語の意図理解エンジンの中から、前記第1の言語に対応する意図理解エンジンが選択され、前記複数の言語の辞書データベースのうちの、前記第1の言語に対応する意図理解エンジンの辞書データベースを用いて、前記第1の言語で翻訳された前記発話の内容のテキストデータに対して形態素解析が行われ、前記形態素解析が行われた前記発話の内容のテキストデータから、前記第1のユーザが求めている動作であるタスクに該当する単語と、前記タスクのパラメータとなる情報が格納されるスロットに該当する単語が抽出され、前記タスクに該当する単語、及び、前記スロットに該当する単語に基づいて、前記発話の内容の意図が推定され、前記推定された意図に基づいて、サービスが選択され、送信された、前記サービスに関する前記発話の言語による案内を受信することと、
    を実行させるためのプログラム。
JP2020020577A 2020-02-10 2020-02-10 情報処理装置、情報処理方法、及び、プログラム Active JP7434978B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020020577A JP7434978B2 (ja) 2020-02-10 2020-02-10 情報処理装置、情報処理方法、及び、プログラム
US17/163,633 US11626100B2 (en) 2020-02-10 2021-02-01 Information processing apparatus, information processing method, and recording medium
CN202110177319.1A CN113312927B (zh) 2020-02-10 2021-02-09 信息处理装置、信息处理方法以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020020577A JP7434978B2 (ja) 2020-02-10 2020-02-10 情報処理装置、情報処理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2021124709A JP2021124709A (ja) 2021-08-30
JP7434978B2 true JP7434978B2 (ja) 2024-02-21

Family

ID=77178813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020020577A Active JP7434978B2 (ja) 2020-02-10 2020-02-10 情報処理装置、情報処理方法、及び、プログラム

Country Status (3)

Country Link
US (1) US11626100B2 (ja)
JP (1) JP7434978B2 (ja)
CN (1) CN113312927B (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010999A (ja) 1998-06-24 2000-01-14 Matsushita Electric Ind Co Ltd 翻訳通信装置
JP2010534378A (ja) 2007-07-20 2010-11-04 グーグル・インコーポレーテッド 自動拡張言語サーチ
JP2015523623A (ja) 2012-05-10 2015-08-13 マイクロソフト コーポレーション 既存の単一言語プロセスからマルチ言語プロセスを構築すること
JP2020013594A (ja) 2019-09-03 2020-01-23 株式会社メルカリ 情報処理方法、プログラム、及び情報処理装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099296A (ja) * 2004-09-29 2006-04-13 Nec Corp 翻訳システム、翻訳通信システム、機械翻訳方法、および、プログラム
JP2008096289A (ja) 2006-10-12 2008-04-24 Alpine Electronics Inc 多言語対応ナビゲーション装置
KR20090079575A (ko) * 2008-01-18 2009-07-22 (주)시터스 네비게이션 서비스 제공 시스템 및 장치와 서비스 제공방법
US9411801B2 (en) * 2012-12-21 2016-08-09 Abbyy Development Llc General dictionary for all languages
EP2973002B1 (en) * 2013-03-15 2019-06-26 Apple Inc. User training by intelligent digital assistant
KR20160096177A (ko) * 2013-12-09 2016-08-12 구글 인코포레이티드 텍스트의 문맥 기반 정의들 및 번역들을 제공하기 위한 시스템들 및 방법들
US11328463B2 (en) * 2015-11-13 2022-05-10 Kodak Alaris, Inc. Cross cultural greeting card system
US10102201B2 (en) * 2015-11-30 2018-10-16 Soundhound, Inc. Natural language module store
US10579742B1 (en) * 2016-08-30 2020-03-03 United Services Automobile Association (Usaa) Biometric signal analysis for communication enhancement and transformation
US20180089172A1 (en) * 2016-09-27 2018-03-29 Intel Corporation Communication system supporting blended-language messages
CN106448670B (zh) * 2016-10-21 2019-11-19 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
KR101889279B1 (ko) * 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법
JP7095254B2 (ja) * 2017-10-10 2022-07-05 トヨタ自動車株式会社 対話システムおよびドメイン決定方法
US10891435B1 (en) * 2018-02-20 2021-01-12 Interactions Llc Bootstrapping multilingual natural language understanding via machine translation
AU2018412575B2 (en) * 2018-03-07 2021-03-18 Google Llc Facilitating end-to-end communications with automated assistants in multiple languages
US11645545B2 (en) * 2018-06-20 2023-05-09 Sap Se Train a digital assistant with expert knowledge
KR102372069B1 (ko) * 2018-12-27 2022-03-10 한국전자통신연구원 언어학습을 위한 양국어 자유 대화 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010999A (ja) 1998-06-24 2000-01-14 Matsushita Electric Ind Co Ltd 翻訳通信装置
JP2010534378A (ja) 2007-07-20 2010-11-04 グーグル・インコーポレーテッド 自動拡張言語サーチ
JP2015523623A (ja) 2012-05-10 2015-08-13 マイクロソフト コーポレーション 既存の単一言語プロセスからマルチ言語プロセスを構築すること
JP2020013594A (ja) 2019-09-03 2020-01-23 株式会社メルカリ 情報処理方法、プログラム、及び情報処理装置

Also Published As

Publication number Publication date
CN113312927A (zh) 2021-08-27
JP2021124709A (ja) 2021-08-30
US11626100B2 (en) 2023-04-11
US20210248994A1 (en) 2021-08-12
CN113312927B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
US10585957B2 (en) Task driven user intents
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US20170199867A1 (en) Dialogue control system and dialogue control method
US9323854B2 (en) Method, apparatus and system for location assisted translation
EP2863300B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
CN109616096B (zh) 多语种语音解码图的构建方法、装置、服务器和介质
KR20200108775A (ko) 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체
US20160163314A1 (en) Dialog management system and dialog management method
EP2863385B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
KR20150116675A (ko) 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
JP2015176099A (ja) 対話システム構築支援装置、方法、及びプログラム
CN108986820B (zh) 用于语音翻译的方法、装置、电子设备和存储介质
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
CN113302683B (zh) 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质
JP2022510818A (ja) 改良されたデータマッチングのためのデータレコードの字訳
EP3005152B1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP2008234427A (ja) ユーザ間の対話を支援する装置、方法およびプログラム
JP2008225963A (ja) 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
JP2012159969A (ja) 機械翻訳装置、方法およびプログラム
JP7434978B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US11495225B2 (en) Response device, response method, and storage medium
CN110599028B (zh) 文本定位方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240122

R151 Written notification of patent or utility model registration

Ref document number: 7434978

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151