JP2021128632A - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
JP2021128632A
JP2021128632A JP2020023777A JP2020023777A JP2021128632A JP 2021128632 A JP2021128632 A JP 2021128632A JP 2020023777 A JP2020023777 A JP 2020023777A JP 2020023777 A JP2020023777 A JP 2020023777A JP 2021128632 A JP2021128632 A JP 2021128632A
Authority
JP
Japan
Prior art keywords
language
information
information processing
semantic analysis
character information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020023777A
Other languages
English (en)
Inventor
淳也 小野
Onojunya
淳也 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2020023777A priority Critical patent/JP2021128632A/ja
Priority to PCT/JP2021/003778 priority patent/WO2021161856A1/ja
Publication of JP2021128632A publication Critical patent/JP2021128632A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】意味解析処理が実行できない言語に関しても適切な意味解析を可能にする。【解決手段】本開示に係る情報処理装置は、第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換する変換部と、意味解析が処理に対応する形式に前記1以上の第2文字情報を正規化し、正規化された前記1以上の第2文字情報を用いて、前記意味解析処理を実行する実行部と、を備える。【選択図】図1

Description

本開示は、情報処理装置及び情報処理方法に関する。
近年、意味解析や翻訳等の自然言語処理に関する技術が知られている。例えば、意味解析技術を用いて、翻訳元言語文を翻訳先言語に変換する機械翻訳システムが提供されている。
特開2004−318344号公報
従来技術によれば、翻訳元言語文を意味解析した結果と、翻訳した翻訳結果文を意味解析した結果とを比較する処理を行う。
しかしながら、従来技術は、意味解析処理が実行できない言語を対象として処理を行うことができない。例えば、従来技術では、翻訳元言語と翻訳先言語との両方が意味解析処理可能であることが必要であり、意味解析処理が実行できない言語に対しては対応できない。また、例えば、翻訳処理を行った後の文を対象として意味解析を行う場合、翻訳により生成される文の形式(例えば文語調)と、意味解析の入力として想定される文の形式(例えば口語調)との相違により意味解析の精度が低下する場合がある。そのため、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることが望まれている。
そこで、本開示では、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる情報処理装置及び情報処理方法を提案する。
上記の課題を解決するために、本開示に係る一形態の情報処理装置は、第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換する変換部と、意味解析が処理に対応する形式に前記1以上の第2文字情報を正規化し、正規化された前記1以上の第2文字情報を用いて、前記意味解析処理を実行する実行部と、を備える。
本開示の実施形態に係る情報処理の一例を示す図である。 本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係る情報処理装置の構成例を示す図である。 本開示の実施形態に係る言語情報記憶部の一例を示す図である。 本開示の実施形態に係る意味フレーム情報記憶部の一例を示す図である。 本開示の実施形態に係る言語間対応表情報記憶部の一例を示す図である。 本開示の実施形態に係る閾値情報記憶部の一例を示す図である。 本開示の実施形態に係る正規化判定の一例を示す図である。 正規化判定モデルに対応するネットワークの一例を図である。 本開示の実施形態に係る端末装置の構成例を示す図である。 本開示の実施形態に係る応答の一例を示す図である。 本開示の実施形態に係る情報処理装置の処理を示すフローチャートである。 本開示の実施形態に係る情報処理システムの処理を示すフローチャートである。 本開示の実施形態に係る情報処理システムの処理を示すフローチャートである。 情報処理システムによる処理の一例を示す概念図である。 意味解析に関するスコアの一例を示す図である。 翻訳品質に関するスコアの一例を示す図である。 他の言語を介した翻訳の一例を示す図である。 翻訳と意味解析との関係の一例を示す図である。 ドメインゴール判定の結果の一例を示す図である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
以下に示す項目順序に従って本開示を説明する。
1.実施形態
1−1.本開示の実施形態に係る情報処理の概要
1−1−1.概要、背景及び効果等
1−1−2.処理の主な流れ
1−2.実施形態に係る情報処理システムの構成
1−3.実施形態に係る情報処理装置の構成
1−4.正規化判定及び正規化処理
1−4−1.後処理正規化
1−4−2.前処理正規化
1−5.実施形態に係る端末装置の構成
1−6.応答例
1−7.実施形態に係る情報処理の手順
1−7−1.情報処理装置に係る処理の手順
1−7−2.情報処理システムに係る処理の手順
1−7−3.情報処理システムに係る処理の他の手順
1−8.情報処理システムによる処理の概念図
1−9.処理の詳細等
1−9−1.言語識別
1−9−2.前処理正規化
1−9−3.複数言語への翻訳および意味解析処理へ拡張
1−9−4.品質推定
1−9−5.クラウドワーカ
1−9−6.翻訳精度・時間の調整
1−10.実験結果(ドメインゴール判定例)
2.その他の実施形態
2−1.クライアント側で意味解析処理等を行う構成例
2−2.その他の構成例
2−3.その他
3.本開示に係る効果
4.ハードウェア構成
[1.実施形態]
[1−1.本開示の実施形態に係る情報処理の概要]
図1は、本開示の実施形態に係る情報処理の一例を示す図である。本開示の実施形態に係る情報処理は、情報処理装置100(図3参照)や端末装置10(図10参照)を含む情報処理システム1(図2参照)によって実現される。図1では、情報処理システム1によって実現される情報処理の概要を説明する。図1は、本開示の実施形態に係る情報処理の一例を示す図である。
まず、図1の説明に先だって説明に用いる用語について記載する。以下では、言語のうち、意味解析処理が可能な言語を「特定言語」と記載する。また、ユーザの発話に対応する言語(入力言語)を「第1言語」と記載する。例えば、第1言語は、情報処理システム1が入力として受け付ける言語に対応する。また、第1言語の翻訳先となる言語を「第2言語」と記載する。例えば、第2言語は、第1言語の翻訳先となる特定言語に対応する。このように、第1言語及び第2言語は、相対的な概念であって、一の言語が他の言語に対して第1言語となったり、第2言語となったりする。例えば、一の言語がユーザの発話に対応する言語である場合は第1言語となり、その一の言語が他の言語の翻訳先の言語となる場合は第2言語となる。すなわち、ここでいう第1言語や第2言語とは、後述する処理において、各言語の他の言語との関係を基に言語を区別して表現可能にするための名称である。また、以下では、第1言語に対応する文字情報を「第1文字情報」と記載し、第2言語に対応する文字情報を「第2文字情報」と記載する場合がある。また、言語のうち、特定言語以外の言語、すなわち意味解析処理ができない言語を「非特定言語」と記載する場合がある。
処理の前提(背景)等についての詳細は後述するが、図1を説明する前にその処理の前提となる事項を簡単に説明する。情報処理システム1は、多くの言語について音声認識(言語識別)や翻訳処理が可能であり、多くの言語を入力言語(第1言語)として受け付けることができる。例えば、情報処理システム1は、図1に示すように英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ポルトガル語、ベンガル語、ドイツ語、日本語、韓国語等の数多くの言語を入力言語(第1言語)として受け付けることができる。なお、これらの言語は一例に過ぎず、情報処理システム1は、上記の言語に限らず、多数の言語を入力言語(第1言語)として受け付けることができる。
一方で、詳細は後述するが意味解析処理については、翻訳処理等と比べてその処理を実行可能にするまでの負荷が高い。このように、意味解析器を生成するためのコストは、翻訳器を生成するためのコストよりも高い。そのため、意味解析処理を実行可能な言語が限られるため、言語のうち、特定言語に該当する言語は、第1言語となる言語に比べて数が少ない。これにより、情報処理システム1は、多くの言語について音声認識(言語識別)や翻訳処理を実行可能であるが、意味解析処理を実行可能な言語は限られる。
そこで、情報処理システム1は、以下のような処理を行う。図1に示す各処理は、情報処理システム1の情報処理装置100及び端末装置10のいずれの装置が行ってもよい。情報処理システム1が処理の主体として記載されている処理については、情報処理システム1に含まれるいずれの装置が行ってもよい。以下では、端末装置10により検知されたユーザの発話に対して、情報処理装置100が音声認識や翻訳や意味解析等の処理を実行する場合を一例として説明する。なお、図1では、情報処理装置100が音声認識や翻訳や意味解析等の処理(情報処理)を行う場合を一例として説明するが、端末装置10がこれらの処理(情報処理)を行ってもよい。この点については後述する。
ここから、図1について具体的に説明する。まず、ユーザが発話を行う。図1の例では、ユーザが韓国語で発話を行った場合を示す。例えば、ユーザは、「明日の東京の天気を教えて(韓国語)」と韓国語で発話する。このように、「・・・(韓国語)」と記載した場合、記載上は明細書を記載する言語(例えば日本語)であるが、実際は韓国語での発音やハングル文字であるものとする。これにより、情報処理システム1は、ユーザによる韓国語での発話を受け付ける(ステップS1)。例えば、情報処理システム1は、入力言語(第1言語)である韓国語の発話の音声情報を取得する。
そして、情報処理システム1は、処理フェーズFS1に示すように、音声認識に関する処理を実行する。情報処理システム1は、ユーザによる発話の音声情報に対する音声認識の処理を行う。例えば、情報処理システム1は、音声認識により入力言語(第1言語)でのユーザによる発話のテキスト(文字情報)を発話情報として取得する。図1の例では、情報処理システム1は、言語識別処理によりユーザの発話が韓国語であると判定する。情報処理システム1は、第1言語である韓国語の文字情報(発話情報)を第1文字情報として用いる。なお、情報処理システム1は、正規化が必要な場合、翻訳前に発話情報に対する正規化(「前処理正規化」ともいう)を行い、正規化された第1文字情報を用いてもよいが、この点については後述する。
そして、情報処理システム1は、ユーザによる発話に対応する第1言語が特定言語かどうかを判定し、第1言語が特定言語ではない場合、特定言語へ変換する。なお、図1での第1言語である韓国語は特定言語でないものとする。情報処理システム1は、言語間対応表を用いて特定言語へ翻訳する。図1の例では、情報処理システム1は、第1言語である韓国語を対応する特定言語(第2言語)である英語に変換する。なお、図1では説明のために、韓国語に対応する特定言語(第2言語)を英語とした場合を示すが、韓国語に対応する特定言語(第2言語)は日本語であってもよい。例えば、韓国語から日本語の翻訳精度は一般的には高いため、通常は韓国語に対応する特定言語(第2言語)は日本語になる場合が多い。例えば、情報処理システム1は、韓国語に対応する第1文字情報「明日の東京の天気を教えて(韓国語)」を、英語に対応する第2文字情報「Please tell me the weather in Tokyo tomorrow」に変換する。
情報処理システム1は、第1言語である韓国語の第1文字情報を、特定言語である英語の第2文字情報(翻訳テキスト)へ変換する。このように、情報処理システム1は、処理フェーズFS1で第1言語(非特定言語)から第2言語(特定言語)へ変換する処理を実行する。このように、処理フェーズFS1は、入力言語に依存する処理である。
そして、情報処理システム1は、処理フェーズFS2に示すように、意味解析に関する処理を実行する。図1では、情報処理システム1は、意味解析に先立って、特定言語に翻訳された第2文字情報(翻訳テキスト)に対する正規化(「後処理正規化」ともいう)を行う(ステップS2)。なお、情報処理システム1は、正規化判定を行い、正規化が必要と判定した場合のみ、第2文字情報の正規化(後処理正規化)を行ってもよいが、この点についての詳細は後述する。
情報処理システム1は、後処理正規化により、意味解析処理に対応する形式に第2文字情報の形式を正規化する。例えば、情報処理システム1は、第2文字情報の形式を口語調に変換(正規化)する処理を実行する。情報処理システム1は、後処理正規化により、正規化された第2文字情報(正規化テキスト)を生成する。例えば、情報処理システム1は、後処理正規化により、正規化された第2文字情報「Tell me the weather in Tokyo tomorrow」を生成する。なお、上記の後処理正規化例は、後処理正規化により文字列の変換が行われることを示すための一例に過ぎず、後処理正規化の詳細は後述する。
そして、情報処理システム1は、発話意味解析処理(「意味解析処理」ともいう)を行う(ステップS3)。情報処理システム1は、後処理正規化により正規化された第2文字情報(正規化テキスト)を用いて、意味解析処理を行う。情報処理システム1は、意味解析処理による解析結果として、意味フレームの情報を生成する。図1の例では、情報処理システム1は、意味解析処理により、Domain−Goalを「Weather−Check」であると特定する。また、情報処理システム1は、Domain−Goal「Weather−Check」に対応するAttribute「Date」のスロット値(「Value」ともいう)が「tomorrow」であり、Attribute「Place」のスロット値が「Tokyo」であると推定する。これにより、情報処理システム1は、Domain−Goalが「Weather−Check」であり、Attribute「Date」のスロット値が「tomorrow」であり、Attribute「Place」のスロット値が「Tokyo」であることを示す意味フレームの情報を生成する。
情報処理システム1は、特定言語である英語で意味解析処理を実行する。このように、情報処理システム1は、処理フェーズFS2で第2言語(特定言語)により意味解析処理を実行する。このように、処理フェーズFS2は、入力言語に非依存の処理である。
そして、情報処理システム1は、処理フェーズFS3に示すように、応答生成に関する処理を実行する。図1では、情報処理システム1は、応答生成に先立って、スロット逆変換を行う(ステップS4)。情報処理システム1は、意味フレーム中のスロット値を入力言語(第1言語)のスロット値に変換する。情報処理システム1は、特定言語(第2言語)のスロット値を入力言語(第1言語)のスロット値に変換する。
図1では、情報処理システム1は、特定言語である英語のスロット値を、入力言語である韓国語のスロット値に変換する。例えば、情報処理システム1は、Attribute「Date」のスロット値を「tomorrow」から「明日(韓国語)」に変換し、スロット値を英語から韓国語に変換する。例えば、情報処理システム1は、Attribute「Place」のスロット値を「Tokyo」から「東京(韓国語)」に変換し、スロット値を英語から韓国語に変換する。
そして、情報処理システム1は、開始するサービスを決定する(ステップS5)。例えば、情報処理システム1は、カレンダーサービスSV1、天気サービスSV2、アラームサービスSV3、音楽サービスSV4等の種々のサービスから、開始するサービスを決定する。図1では、情報処理システム1は、ユーザが天気を尋ねているため、天気サービスSV2を開始するサービスに決定する。そして、情報処理システム1は、応答を生成する。例えば、情報処理システム1は、明日の東京の天気を示す情報を韓国語で出力する。例えば、情報処理システム1は、「明日の東京の天気は晴れです(韓国語)」といった応答を、韓国語で音声により出力したり、韓国語で表示したりする。このように、処理フェーズFS3は、入力言語に依存する処理である。
上述したように、図1では、情報処理システム1は、意味解析処理が実行できない韓国語が入力言語(第1言語)である場合、その言語を特定言語(第2言語)である英語に変換し、変換した変換後の第2言語の情報を対象に意味解析を実行する。このように、情報処理システム1は、意味解析処理が実行できない言語が入力言語(第1言語)である場合、その言語を特定言語(第2言語)に変換し、変換した変換後の第2言語の情報を対象に意味解析を実行する。これにより、情報処理システム1は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
[1−1−1.概要、背景及び効果等]
上述のように、情報処理システム1は、例えばスマートスピーカなどのデバイスに対し、ユーザの発話を受け付け、発話内容から意味フレームのテーブル構造を生成し、発話のドメインゴールを分類(特定)し、スロットを取り出す。これにより、情報処理システム1は、アプリやサービスと連携可能な意味解析処理における多言語展開を用意にするための仕組みを提供する。
情報処理システム1により実行される手法は、図1に示すように、多言語の発話を入力可能とし、解析可能な特定の言語に変換する。例えば、情報処理システム1は、テキストからテキストへ翻訳する翻訳エンジンを利用し、翻訳器の出力を意味解析器が想定する入力表現に正規化する後処理正規化の処理後、特定言語の意味解析を実行した後、スロット値を入力の言語に逆変換する。これにより、情報処理システム1は、多様な言語種の入力であっても言語変換器が対応していれば、対応言語数が少ない特定言語の意味解析で処理が可能となる。このように、情報処理システム1は、翻訳器や多言語辞書を利用して発話文およびスロット値を言語変換すること、翻訳器と意味解析器が想定している発話スタイルのギャップを埋めるための後処理正規化処理を行うことができる。
意味解析処理(意味解析器等)を作成するためには、ドメインゴールに応じた発話文を収集する必要があり、そこから、スロットとして切り出すためのラベリングを行う必要がある。そのために、対象言語を理解しドメインゴールの基準設計や、コーパスを収集しラベリングにかかるコストの面で、一つの言語へローカライズしていくのは、対訳収集が主なコストとなる機械翻訳と比べて負荷が高く、意味解析の多言語展開には時間と人手コストが一般的には必要とされる。グローバルに事業を展開していく際に、ローカライズゼーションは避けては通れない課題である。
一方、情報処理システム1は以下のような技術的な特徴を有する。情報処理システム1は、翻訳技術を利用することで、意味解析の多言語化を実現する。また、情報処理システム1は、翻訳器が対応する多言語の発話を入力可能とし、意味解析が可能な特定言語に変換する。また、情報処理システム1は、特定言語に変換した発話テキストを、意味解析器が想定する話し言葉(口語体)の発話調(「口語調」ともいう)に変換する。情報処理システム1は、特定言語かつ、発話調に変換したテキストから、意味解析の結果である意味フレームを生成する。また、情報処理システム1は、意味フレーム内のスロット値および応答生成の結果を、入力言語またはアプリケーションやサービスが処理可能な言語に変換する。
また、情報処理システム1は、口語表現の発話調に変換したかをユーザが認識可能な出力を行う。例えば、情報処理システム1は、正規化判定モジュール(「正規化判定モデル」ともいう)を通すことで、0なら変換なし、1なら変換ありを出力する。情報処理システム1は、応答の際には入力時、解析時、出力時の3フェーズにて、どの言語かわかる形式で出力する。例えば、情報処理システム1は、画像(アイコンなど)、音声(効果音など)、テキスト(言語名/言語コード)等の形式で出力する。なお、この点についての詳細は後述する。
また、情報処理システム1は、非対応言語、翻訳精度、意味解析精度が一定以下の場合は処理を中断し、その中断理由を提示する。精度が低い状態でアプリケーションやサービスを実行してもユーザが期待する結果にならないことが多い。そのため、情報処理システム1は、ユーザに翻訳処理が上手くできなかったのか、翻訳は成功したが意味解析処理が上手くできなかったのかを伝えることで、ユーザ側が次に入力する際に調整(制御)することを可能にする。
ここで、図18を用いて従来の翻訳の一例について簡単に説明する。図18は、他の言語を介した翻訳の一例を示す図である。図18は、多言語化における特定言語経由の方法の一例を示す。
翻訳技術において、翻訳のモデルを訓練するためには、大量の対訳文の組が必要とされ、特にマイナー言語Aからマイナー言語Bへの翻訳の際は特にコーパスの収集が困難になり、翻訳エンジンの実現が難しくなる。なお、ここでいうマイナー言語とは、例えば情報処理システム1の提供元の属する国において、十分な量のデータを収集することが難しい言語を意味する。一方、メジャー言語とは、例えば情報処理システム1の提供元の属する国において、十分な量のデータを収集することが比較的容易な言語を意味する。例えば、メジャー言語には、情報処理システム1の提供元の属する国で用いられる言語が含まれる。なお、マイナー言語とは、その言語を用いる人(話者)の数が比較的少ない言語であってもよく、メジャー言語とは、その言語を用いる人(話者)の数が比較的多い言語であってもよい。
そこで、図18のように一度メジャー言語に変換する手法がある。図18の例では、マイナー言語Aから、メジャー言語(例えば英語等)に翻訳した後、メジャー言語からマイナー言語Bへ2回翻訳する。このように2回翻訳する理由は、以下の2つの点がある。一つ目は、マイナー言語Aからマイナー言語Bへの対訳文の収集・作成に要するコストに比べ、マイナー言語Aからメジャー言語、及びメジャー言語からマイナー言語Bのコストのほうが低いためである。二つ目は、メジャー言語はメジャー言語であるため、マイナー言語Aからメジャー言語、及びメジャー言語からマイナー言語Bの多言語対応としてのニーズがあり、既に対応済みで翻訳可能であることが多く、既存の翻訳器(翻訳処理)をそのまま利用可能(流用可能)である可能性が高いためである。
上述のように、翻訳において特定の言語(例えばメジャー言語)へ翻訳し、更に目的の言語に再翻訳する手法が考えられる。上記は、目的が同じ翻訳器同士を単なる結合(単結合)する場合であり、性質・目的が同じもの同士であるため、上手く機能する可能性が高い。
一方で、図1に示す例での対象は、意味解析器の多言語化・ローカライゼーションに、翻訳器を使用する点である。上述したように、情報処理システム1は、一般的に意味解析器よりも、翻訳器の対応言語の数が圧倒的に多いということを利用することで、特定言語(上記メジャー言語等)のみしか意味解析処理(意味解析器)が対応可能ではない場合であっても、翻訳処理(翻訳器)が対応可能な言語まで見かけ上意味解析処理も対応可能とする。そのために、情報処理システム1は、音声認識後のテキストを特定言語に翻訳する。
しかしながら、翻訳処理(翻訳器)と意味解析処理(意味解析器)とは、性質や目的が違うものであり、単結合では上手く機能しない場合がある。以下に、図19を参照しつつその理由を従来技術の問題点として記載する。図19は、翻訳と意味解析との関係の一例を示す図である。
一般的に翻訳器は、書き言葉の文語調の傾向にあり、それは翻訳器が広く使われることを目指し、科学文書、ニュースなどの人が読み・正確に伝わる文として、主語省略がなくあいまい性が少なく、文法として正しいなど、文としての完成度が高いコーパスをベースに学習されることが多い点に起因する。一方で、スマートスピーカやAI(Artificial Intelligence)チャットボットなど、人が機械に依頼するようなスタイル、人と機械がコミュニケーションするスタイルの場合、人と人が会話するような言葉の表現が自然に用いられている。
つまり、以下のような4つの点が、翻訳処理(翻訳器)と意味解析処理(意味解析器)とを単純に結合(単結合)した場合に上手く機能しない原因となり得る。
第1点としては、例えば入力される入力情報が、書き言葉の文語調ではなく、話し言葉の口語調である点が挙げられる。第2点としては、例えば入力される入力情報が、人に依頼する際の発話調である点が挙げられる。第3点としては、表層上の文字列にあいまい性があり、明確に意味を解釈できない点が挙げられる。第4点としては、翻訳結果が「する」、「です」、「します」などの説明調の発話になりやすく、操作依頼を目的とする依頼調と違う点が挙げられる。このような表現は、一般的に用いられる翻訳処理(翻訳器)で適切に対応できていない表現である。ただし、近年の音声翻訳器は話し言葉(口語調)も取り入れている(対応している)場合があり、以下第2点〜第4点への対応が重要になる。
情報処理システム1における意味解析処理(意味解析器)は、操作の依頼や、質問を目的としているため、第2点の依頼調(人に依頼する際の発話の形式)として、以下のような入力が想定される。例えば、「天気を教えて」、「音楽をかけて」などの動詞の活用形の一つ「て形」で終わる形や、「天気はどうかな?」、「オススメの場所はどこ?」など、5W1Hの疑問も多く用いられることが想定される。また、第3点のあいまい性が含まれる発話として、「アーティストXXXかけて」、「タイマーかけて」など、意味解析処理(意味解析器)では想定しているドメインの設計基準から強制的に解釈させること(グラウンディング)により、あいまい性の表現でも強制的に解釈している。また、第4点の説明調の表現に対しても、意味解析処理(意味解析器)は操作依頼として受け付けないケースがある。このように、図19に示すように、翻訳処理(翻訳器)の出力は、意味解析処理(意味解析器)が想定している入力とはならず、ギャップが存在する。翻訳処理(翻訳器)と意味解析処理(意味解析器)との単結合では、そのギャップにより、機能を実現することが難しい場合がある。
一方で、情報処理システム1は、上述したように、翻訳処理により翻訳された情報(翻訳テキスト)に対して、意味解析処理に対応する形式に変換する正規化を行った上で、意味解析処理を行う。例えば、情報処理システム1は、翻訳処理により第1の形式で翻訳された情報(翻訳テキスト)を、意味解析処理に対応する第2の形式に変換(正規化)した上で、意味解析処理を行う。例えば、情報処理システム1は、翻訳処理により文語調の形式で翻訳された情報(翻訳テキスト)を、口語調に形式を変換(正規化)した上で、意味解析処理を行う。このように、情報処理システム1は、翻訳処理(翻訳器)と意味解析処理(意味解析器)とを単結合した場合に生じ得る上記のギャップを正規化により埋めた上で、処理を実行することができる。これにより、情報処理システム1は、上記のギャップを解消することができる。したがって、情報処理システム1は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
[1−1−2.処理の主な流れ]
以下、処理の主な流れについて簡単に記載する。
情報処理システム1は、発話入力について以下のような処理を行う。情報処理システム1は、音声認識により発話からテキストへ変換する。ここで入力言語は、例えばスペイン語等、情報処理システム1の対応可能な言語として予め決定している。
情報処理システム1は、言語対応表から特定言語翻訳について以下のような処理を行う。情報処理システム1は、情報処理システム1が想定している入力言語から、内部の翻訳処理するための特定言語を言語対応表から参照する。情報処理システム1は、特定言語へ翻訳する。
情報処理システム1は、翻訳結果に対する正規化判定について以下のような処理を行う。情報処理システム1は、翻訳後のテキストに対して、正規化判定モジュール(正規化判定モデル)により、意味解析器の想定入力の表現に変換する必要があるかを判定するが、この点についての詳細は後述する。
情報処理システム1は、意味解析処理(発話意味解析器)について以下のような処理を行う。情報処理システム1は、意味解析処理により、テキスト(文字列)から、意味フレームを生成する。例えば、情報処理システム1は、意味解析処理(発話意味解析器)の機能により、どのアプリやサービスを実行するかを判断するためのドメインゴールと、アプリやサービスを具体的に実行するために用いられるスロット情報を含めた表形式である意味フレームの情報を生成する。
情報処理システム1は、意味フレームのスロット逆変換について以下のような処理を行う。意味解析処理(発話意味解析器)によって出力された意味フレームは、特定言語による解析結果であり、ドメインゴールは言語依存しない抽象化された表現であるため、言語非依存である。一方、スロット情報の値は、特定言語の表現となり、アプリやサービスは一般的にはユーザが発話した入力言語で応答を返す必要がある。そのため、情報処理システム1は、正確にアプリやサービスを実行するために、スロット情報を特定言語から、入力言語に逆変換する場合がある。
情報処理システム1は、以下のような方法により逆変換を行う。1つ目の方法として、知識データベース(DB)から単語・フレーズの多言語変換辞書により変換する方法が挙げられる。2つ目の方法として、特定言語への翻訳器による逆翻訳する方法が挙げられる。情報処理システム1は、上述した方法に限らず、種々の方法により逆変換を行ってもよい。
なお、意味フレームのスロット情報は、基本的にはアーティスト名、曲名、地名、デバイス名などの文というよりは単語やフレーズであるため、知識DBで辞書に変換対象により精度よく変換することができる。一方、情報処理システム1は、知識DBにない表記の場合、2つ目の方法の逆翻訳により、特定言語から入力言語への逆翻訳を行い、2段階の変換を行ってもよい。
情報処理システム1は、応答生成について以下のような処理を行う。例えば、情報処理システム1は、意味解析処理(発話意味解析器)が通常の対応言語ではなく、対象外の言語を翻訳器により、疑似的に処理したことがわかるように、応答の際に、入力時、解析時、出力時の3フェーズにて、どの言語で処理したかがわかる形式で出力する。なお、この点の例については図11で説明する。例えば、情報処理システム1は、画像(アイコンなど)、音声(効果音など)、テキスト(言語名/言語コード)等の形式で出力する。
[1−2.実施形態に係る情報処理システムの構成]
図2に示す情報処理システム1について説明する。図2に示すように、情報処理システム1は、端末装置10と、情報処理装置100とが含まれる。端末装置10と、情報処理装置100とは所定の通信網(ネットワークN)を介して、有線または無線により通信可能に接続される。図2は、実施形態に係る情報処理システムの構成例を示す図である。なお、図2に示した情報処理システム1には、複数台の端末装置10や、複数台の情報処理装置100が含まれてもよい。例えば、情報処理システム1は、上述した対話システムを実現する。
情報処理装置100は、第1言語によるユーザの発話に対応する第1文字情報を、第2言語の第2文字情報に変換し、正規化された第2文字情報を用いて、意味解析処理を実行するコンピュータである。情報処理装置100は、第2言語に対応する意味解析処理の結果を第1言語に変換する逆変換処理を行う。また、情報処理装置100は、各種情報を端末装置10に送信するコンピュータである。情報処理装置100は、各種機能に関するサービスを提供するために用いられるサーバ装置である。例えば、情報処理装置100は、ユーザに対話システムに関するサービスを提供するために用いられる。情報処理装置100は、ユーザに対話システムに関する各種情報処理を行う。
また、情報処理装置100は、音声信号処理や音声認識や発話意味解析や対話制御等のソフトウェアモジュールを有してもよい。情報処理装置100は、音声認識の機能を有してもよい。例えば、情報処理装置100は、自然言語理解(NLU:Natural Language Understanding)や自動音声認識(ASR:Automatic Speech Recognition)の機能を有してもよい。例えば、情報処理装置100は、ユーザの発話による入力情報からユーザのインテント(意図)やエンティティ(対象)に関する情報を推定してもよい。情報処理装置100は、自然言語理解や自動音声認識の機能を有するサーバとして機能する。
端末装置10は、ユーザの発話を検知し、ユーザの発話の音声等を情報処理装置100等へ送信するコンピュータである。また、端末装置10は、自然言語理解や自動音声認識等の音声認識の機能を有してもよい。例えば、端末装置10は、ユーザの発話による入力情報からユーザのインテント(意図)やエンティティ(対象)に関する情報を推定してもよい。端末装置10は、ユーザによって利用されるデバイス装置である。端末装置10は、ユーザによる入力を受け付ける。端末装置10は、ユーザの発話による音声入力や、ユーザの操作による入力を受け付ける。端末装置10は、ユーザの入力に応じた情報を表示する。
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、ユーザの発話に対して応答を行う対話サービスの提供に用いられる。端末装置10は、マイク等の音を検知する音センサを有する。例えば、端末装置10は、音センサにより、端末装置10の周囲におけるユーザの発話を検知する。例えば、端末装置10は、周囲の音を検知し、検知した音に応じて種々の処理を行うデバイス(音声アシスト端末)であってもよい。端末装置10は、ユーザの発話に対して、処理を行うコンピュータである。
端末装置10は、実施形態における処理を実現可能であれば、どのような装置であってもよい。端末装置10は、ユーザの発話を検知し、情報処理装置100へ送信する機能を有する構成であれば、どのような装置であってもよい。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等の装置であってもよい。端末装置10は、ユーザが身に着けるウェアラブル端末(Wearable Device)等であってもよい。例えば、端末装置10は、腕時計型端末やメガネ型端末等であってもよい。また、端末装置10は、テレビや冷蔵庫等のいわゆる家電製品であってもよい。例えば、端末装置10は、スマートスピーカやエンタテインメントロボットや家庭用ロボットと称されるような、人間(ユーザ)と対話するロボットであってもよい。また、端末装置10は、デジタルサイネージ等の所定の位置に配置される装置であってもよい。
[1−3.実施形態に係る情報処理装置の構成]
次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置100の構成について説明する。図3は、本開示の実施形態に係る情報処理装置100の構成例を示す図である。
図3に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークN(図2参照)と有線または無線で接続され、端末装置10等の他の情報処理装置との間で情報の送受信を行う。また、通信部110は、端末装置10との間で情報の送受信を行ってもよい。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図3に示すように、言語情報記憶部121と、意味フレーム情報記憶部122と、言語間対応表情報記憶部123と、閾値情報記憶部124と、知識情報記憶部125とを有する。記憶部120は、文字情報の入力に応じて、特定したドメインゴール等の意味フレームの情報と、その精度(確信度)を示すスコア(「意味解析スコア」ともいう)とを出力する意味解析器を記憶する。記憶部120は、意味解析が可能な特定言語ごとの意味解析器の情報を記憶する。例えば、記憶部120は、特定言語である英語の意味解析器や日本語の意味解析器等、特定言語ごとの意味解析器の情報を記憶する。
実施形態に係る言語情報記憶部121は、言語に関する各種情報を記憶する。例えば、言語情報記憶部121は、情報処理システム1が言語識別(音声認識)可能な言語の各種情報を記憶する。言語情報記憶部121は、各言語が意味解析可能な言語(特定言語)であるかを示す情報や、各言語を翻訳可能な言語(翻訳先言語)を示す情報を記憶する。図4は、実施形態に係る言語情報記憶部の一例を示す図である。図4に示す言語情報記憶部121には、「言語」、「特定言語(意味解析可能)」、「翻訳先言語」といった項目が含まれる。また、「翻訳先言語」には、「#1」、「#2」等といった項目が含まれる。なお、図4では「#1」、「#2」のみを図示するが、「翻訳先言語」には、「#3」、「#4」等、翻訳先言語に対応する数の項目が含まれてもよい。
「言語」は、言語を示す。例えば、「言語」は、情報処理システム1が言語識別(音声認識)可能な言語を示す。また、言語を識別するための識別情報(言語ID)が各言語に対応付けて記憶されてもよい。例えば、各言語を識別する言語コードが記憶されてもよい。
「特定言語(意味解析可能)」は、意味解析可能な言語(特定言語)であるかを示す。「特定言語(意味解析可能)」には、特定言語がどうかを示すフラグが記憶される。例えば、「特定言語(意味解析可能)」には、その言語が意味解析可能である場合「1」が記憶され、その言語が意味解析可能ではない場合「0」が記憶される。例えば、「特定言語(意味解析可能)」には、その言語が特定言語である場合「1」が記憶され、その言語が特定言語ではない場合「0」が記憶される。
「翻訳先言語」は、その言語を翻訳可能な言語(翻訳先言語)を示す。例えば、「翻訳先言語」は、その言語を翻訳することができる翻訳先の言語(翻訳先言語)を示す。
図4の例では、言語「英語」は、「特定言語(意味解析可能)」が「1」であり、意味解析可能な特定言語であることを示す。また、言語「英語」は、中国語やヒンディー語等に翻訳可能であることを示す。
また、言語「中国語」は、「特定言語(意味解析可能)」が「0」であり、意味解析可能な特定言語ではないことを示す。また、言語「中国語」は、英語やアラビア語等に翻訳可能であることを示す。
なお、言語情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
実施形態に係る意味フレーム情報記憶部122は、意味フレームに関する各種情報を記憶する。意味フレーム情報記憶部122は、言語ごとに意味フレームに関する各種情報を記憶する。例えば、意味フレーム情報記憶部122は、各特定言語に対応する意味フレームに関する情報を記憶する。
図5の例では、意味フレーム情報記憶部122は、フレーム情報FM1やフレーム情報FM2等のように特定言語ごとに情報(テーブル)を記憶する。例えば、フレーム情報FM1は、特定言語である言語「英語」の意味フレームに関する情報を示す。また、例えば、フレーム情報FM2は、特定言語である言語「日本語」の意味フレームに関する情報を示す。
図5に示すフレーム情報FM1やフレーム情報FM2等は、「言語」、「Domain−Goal」、「Slot」といった項目が含まれる。また、「Slot」には、「Attribute」、「Value」といった項目が含まれる。
「言語」は、言語を示す。例えば、「言語」は、情報処理システム1が言語識別(音声認識)可能な言語を示す。また、言語を識別するための識別情報(言語ID)が各言語に対応付けて記憶されてもよい。例えば、各言語を識別する言語コードが記憶されてもよい。
また、「Domain−Goal」は、意味フレームのDomain−Goal(ドメインゴール)を示す。例えば、「Domain−Goal」は、発話の目的(意図)等を示す。
「Slot」は、対応するDomain−Goalのスロット(構成要素)に関する各種情報が記憶される。例えば、「Slot」は、対応するドメインゴールに含まれる属性(スロット名)やその値(スロット値)が記憶される。「Attribute」は、スロット(構成要素)の属性(スロット名)を示す。「Value」は、対応する属性(スロット名)のスロット値を示す。なお、意味フレーム情報記憶部122中の「Value」に示す「−(ハイフン)」は、「Value」に値が格納されていないことを示す。なお、「Value」には、ユーザの意味解析の処理に用いられる場合、ユーザの発話に対応して具体的な値(情報)が格納される。
図5の例では、言語「英語」には、Domain−Goalが「Weather−Check」や「Music−Play」である意味フレームが含まれることを示す。また、Domain−Goal「Weather−Check」には、「Attribute」が「Date」や「Place」であるSlotが含まれることを示す。すなわち、天気をチェックするDomain−Goal「Weather−Check」には、日時や場所に関するスロットが含まれる。
なお、意味フレーム情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、意味フレーム情報記憶部122には、各「Value」に格納される値の形式が記憶されてもよい。例えば、「Value」に記憶される値が、数値か、それ以外の情報(文字列等)であるかを示す情報を記憶されてもよい。例えば、「Value」に記憶される値が、言語に共通して使用可能な情報であるかを示す情報が記憶されてもよい。例えば、「Value」に記憶される値が、数値である場合、言語に共通して使用可能なことを示す情報が記憶されてもよい。
実施形態に係る言語間対応表情報記憶部123は、言語間の対応関係を示す情報を記憶する。言語間対応表情報記憶部123は、特定言語以外の言語と、特定言語との対応関係を示す情報を記憶する。例えば、言語間対応表情報記憶部123は、特定言語の選択に関する情報を記憶する。例えば、言語間対応表情報記憶部123は、言語を翻訳する際に、どの特定言語に翻訳するかを示す情報を記憶する。図6は、実施形態に係る言語間対応表情報記憶部の一例を示す図である。図6に示す言語間対応表情報記憶部123には、「入力可能言語」、「選択的特定言語」といった項目が含まれる。
「入力可能言語」は、入力可能な言語を示す。例えば、「入力可能言語」は、情報処理システム1が言語識別(音声認識)可能な言語を示す。また、入力可能言語を識別するための識別情報(言語ID)が各入力可能言語に対応付けて記憶されてもよい。例えば、各入力可能言語を識別する言語コードが記憶されてもよい。例えば、「入力可能言語」には、特定言語以外の言語(非特定言語)が記憶される。
「選択的特定言語」は、選択された特定言語を示す。例えば、「選択的特定言語」は、情報処理システム1に入力可能言語が入力された場合に、入力可能言語を翻訳する言語(特定言語)を示す。また、選択的特定言語を識別するための識別情報(言語ID)が各選択的特定言語に対応付けて記憶されてもよい。例えば、各選択的特定言語を識別する言語コードが記憶されてもよい。例えば、「選択的特定言語」には、情報処理システム1の管理者等により各非特定言語に対して指定された特定言語が記憶される。
図6の例では、入力可能言語「スペイン語」の選択的特定言語は「英語」であることを示す。すなわち、情報処理システム1にスペイン語が入力された場合、特定言語である英語に翻訳することを示す。例えば、スペイン語でユーザが発話を行った場合、スペイン語の文字情報(第1文字情報)が英語の文字情報(第2文字情報)に変換されることを示す。この場合、スペイン語が第1言語となり、英語が第2言語となる。
なお、言語間対応表情報記憶部123は、上記に限らず、目的に応じて種々の情報を記憶してもよい。言語間対応表情報記憶部123は、各入力可能言語に対して複数の選択的特定言語を対応づけて記憶してもよい。
上記のような言語間対応表は、特定言語に翻訳する際、どの言語を選択するかを決定する際に用いられる。例えば、言語間対応表とは、翻訳処理(翻訳器)が対応する入力言語に対して、意味解析処理(意味解析器)が対応する特定言語のすべてにおいて、言語間距離が短いものを事前に保持しておくテーブル(一覧表)であってもよい。ここでの言語間距離は、入力言語の文が文法構造(例えば日本語のSOVや英語のSVO等)の視点で似ているもの、単語が近いもの(例えば韓国語と日本語)、語順が似ているもの(例えば韓国語と日本語)から判断(算出)されてもよい。また、言語間距離は、文字列の表層から編集距離(例えばレーベンシュタイン距離等)によって判断(算出)されてもよい。情報処理システム1は、図6のような言語間対応表を事前に持つことで、入力言語に対応する翻訳先の言語を得ることが可能となる。
実施形態に係る閾値情報記憶部124は、閾値に関する各種情報を記憶する。閾値情報記憶部124は、スコアとの比較に用いる閾値に関する各種情報を記憶する。図7は、実施形態に係る閾値情報記憶部の一例を示す図である。図7に示す閾値情報記憶部124には、「閾値ID」、「閾値」といった項目が含まれる。
「閾値ID」は、閾値を識別するための識別情報を示す。また、「閾値」は、対応する閾値IDにより識別される閾値の具体的な値を示す。また、各閾値には、その用途を示す情報が対応付けて記憶される。
図7の例では、閾値ID「TH1」により識別される閾値TH1の値は、「0.75」であることを示す。また、閾値TH1は、その用途が(例えば翻訳の)品質推定であることを示す情報が対応付けて記憶される。
なお、閾値情報記憶部124は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、閾値情報記憶部124は、閾値の用途を閾値IDに対応付けて記憶してもよい。例えば、閾値情報記憶部124は、閾値ID「TH1」に用途「品質推定」を対応付けて記憶してもよい。また、閾値情報記憶部124は、正規化判定に用いる閾値(正規化要否判定要閾値)を記憶する。例えば、閾値情報記憶部124は、閾値ID「TH2」より識別される正規化要否判定要閾値の値(例えば、0.5や0.8等)を記憶する。
実施形態に係る知識情報記憶部125は、知識に関する各種情報を記憶する。知識情報記憶部125は、知識データベース(知識DB)として機能する。知識情報記憶部125は、多言語辞書の情報を記憶する。例えば、知識情報記憶部125は、各言語間での各対象を示す文字列の対応関係を示す情報を記憶する。なお、情報処理装置100が外部から知識を取得する場合、情報処理装置100は、知識情報記憶部125を有しなくてもよい。
図3に戻り、説明を続ける。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム等の決定プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、取得部131と、変換部132と、実行部133と、逆変換部134と、生成部135と、送信部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
取得部131は、各種情報を取得する。取得部131は、外部の情報処理装置から各種情報を取得する。取得部131は、端末装置10から各種情報を取得する。
取得部131は、記憶部120から各種情報を取得する。取得部131は、言語情報記憶部121や意味フレーム情報記憶部122や言語間対応表情報記憶部123や閾値情報記憶部124や知識情報記憶部125から各種情報を取得する。
取得部131は、変換部132が変換した各種情報を取得する。取得部131は、実行部133が実行した各種情報を取得する。取得部131は、逆変換部134が変換した各種情報を取得する。取得部131は、生成部135が生成した各種情報を取得する。
例えば、取得部131は、正規化を判定するモデル(関数)を取得してもよい。取得部131は、正規化を判定するモデル(関数)等の各種のモデル(関数)を提供する外部の情報処理装置や記憶部120から正規化を判定するモデル(関数)を取得する。例えば、取得部131は、正規化を判定するモデル(関数)を取得する。例えば、取得部131は、図9に示すようなネットワークNW1に対応する正規化の要否を判定するモデル(正規化判定モデル)を取得する。例えば、取得部131は、翻訳の品質を推定するモデル(品質推定モデル)を取得する。
取得部131は、第1言語によるユーザの発話情報を取得する。取得部131は、第1言語によるユーザの発話に対応する第1文字情報を取得する。
変換部132は、各種情報を変換する。変換部132は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を変換する。変換部132は、記憶部120から、各種情報を変換する。変換部132は、言語情報記憶部121や意味フレーム情報記憶部122や言語間対応表情報記憶部123や閾値情報記憶部124や知識情報記憶部125に記憶された情報に基づいて、各種情報を変換する。
変換部132は、第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換する。変換部132は、第1文字情報を、一の第2言語に対応する一の第2文字情報に変換する。変換部132は、複数の第2言語のうち所定の基準に基づいて選択された一の第2言語に対応する一の第2文字情報に、第1文字情報を変換する。
変換部132は、変換に関する言語の対応付けを示す言語間対応表を用いて、第1言語に対応付けられた第2言語を、一の第2言語として第1文字情報を変換する。変換部132は、第1文字情報を、複数の第2言語の各々に対応する複数の第2文字情報に変換する。変換部132は、第1言語によるユーザの発話情報が正規化された第1文字情報を、1以上の第2文字情報に変換する。変換部132は、発話情報に対する正規化が不要と判定された場合、発話情報を第1文字情報として、1以上の第2文字情報に変換する。
変換部132は、各種情報を決定する。変換部132は、各種情報を判定する。変換部132は、言語識別(音声認識)が可能な言語かを判定する。変換部132は、入力言語が対象外言語かを判定する。変換部132は、第1言語が対象外言語かを判定する。変換部132は、言語識別(音声認識)できない言語を対象外言語であると判定する。変換部132は、入力言語が特定言語かどうかを判定する。変換部132は、第1言語が特定言語かどうかを判定する。変換部132は、第1言語が特定言語ではないと判定した場合、第2言語への翻訳を行う。変換部132は、第1言語が特定言語ではないと判定した場合、第1文字情報を、第2言語に翻訳する。変換部132は、第1言語が特定言語ではないと判定した場合、第1文字情報を、第2言語の第2文字情報に変換する。
変換部132は、各種処理の実行を判定する。変換部132は、正規化の実行要否を判定する。変換部132は、文字情報を正規化する処理を実行する。変換部132は、口語調の文字情報の形式を文語調の形式に変換(正規化)する処理を実行する。変換部132は、ユーザの発話情報を正規化する処理を実行する。変換部132は、正規化が必要と判定した場合、ユーザの発話情報を正規化する処理を実行する。
変換部132は、前処理正規化により、正規化された第1文字情報(正規化テキスト)を生成する。変換部132は、前処理正規化により、翻訳処理に対応する形式に文字情報の形式を正規化する。変換部132は、ユーザの発話情報が口語調である場合、ユーザの発話情報を文語調に変換(正規化)する処理を実行する。変換部132は、第1文字情報が口語調である場合、第1文字情報を文語調に変換(正規化)する処理を実行する。なお、変換部132は、第1言語から第2言語に変換(翻訳)する翻訳器が口語調の入力でも精度が変化しない場合、口語調の文字情報の形式を文語調の形式に変換(正規化)する処理を実行しなくてもよい。
実行部133は、各種処理を実行する。実行部133は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部133は、記憶部120に記憶された情報に基づいて、各種処理を実行する。実行部133は、言語情報記憶部121や意味フレーム情報記憶部122や言語間対応表情報記憶部123や閾値情報記憶部124や知識情報記憶部125に記憶された情報に基づいて、各種処理を実行する。実行部133は、処理の実行により各種情報を生成する。
実行部133は、取得部131により取得された各種情報に基づいて、各種処理を実行する。実行部133は、変換部132により変換された各種情報に基づいて、各種処理を実行する。実行部133は、逆変換部134により変換された各種情報に基づいて、各種処理を実行する。実行部133は、取得部131により取得された各種情報に基づいて、各種情報を抽出する。実行部133は、変換部132により変換された各種情報に基づいて、各種情報を抽出する。また、実行部133は、逆変換部134により変換された各種情報に基づいて、各種情報を抽出する。実行部133は、生成部135により生成された情報に基づいて、各種情報を抽出する。
実行部133は、各種情報を決定する。実行部133は、各種情報を判定する。実行部133は、各種処理の実行を決定する。実行部133は、各種処理の実行を判定する。実行部133は、正規化の実行要否を判定する。実行部133は、文字情報を正規化する処理を実行する。実行部133は、文語調の文字情報の形式を口語調の形式に形式を変換(正規化)する処理を実行する。実行部133は、第2文字情報を正規化する処理を実行する。実行部133は、正規化が必要と判定した場合、第2文字情報を正規化する処理を実行する。
実行部133は、後処理正規化により、意味解析処理に対応する形式に文字情報の形式を正規化する。実行部133は、第2文字情報が文語調である場合、第2文字情報を口語調に変換(正規化)する処理を実行する。なお、実行部133は、意味解析を行う意味解析器が文語調の入力でも精度が変化しない場合、文語調の文字情報の形式を口語調の形式に形式を変換(正規化)する処理を実行しなくてもよい。
実行部133は、各種情報を特定する。実行部133は、各種情報を推定する。実行部133は、各種情報を抽出する。実行部133は、各種情報を選択する。実行部133は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を抽出する。実行部133は、記憶部120から、各種情報を抽出する。実行部133は、言語情報記憶部121や意味フレーム情報記憶部122や言語間対応表情報記憶部123や閾値情報記憶部124や知識情報記憶部125から、各種情報を抽出する。実行部133は、各種情報を算出する。実行部133は、各種の値を算出する。実行部133は、各種スコアを算出する。
実行部133は、ユーザの発話に対応する文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、発話の内容やユーザの状況を推定(特定)する。実行部133は、変換部132により変換された文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、文字情報の内容や文字情報に対応するユーザの状況を推定(特定)する。実行部133は、変換部132により第1言語から第2言語に変換された文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、文字情報の内容や文字情報に対応するユーザの状況を推定(特定)する。例えば、実行部133は、文字情報を構文解析等の種々の従来技術を適宜用いて解析することにより、文字情報に対応するユーザの発話の内容を推定する。
実行部133は、ユーザの発話を解析することにより、ユーザの発話の意図等の内容を推定する。実行部133は、種々の従来技術を適宜用いてユーザの発話の意図等の内容を推定する。実行部133は、種々の従来技術を適宜用いて、ユーザの発話を解析することにより、ユーザの発話の内容を推定する。実行部133は、ユーザの発話の文字情報から重要なキーワードを抽出し、抽出したキーワードに基づいてユーザの発話の内容を推定する。
実行部133は、発話に対応する文字情報を解析することにより、ユーザの発話に対応するDomain−Goal(ドメインゴール)を特定する。実行部133は、発話に対応する文字情報を解析することにより、特定したDomain−Goal(ドメインゴール)に対応するスロット値等の属性情報を推定する。実行部133は、翻訳の品質推定(単に「品質推定」ともいう)を行う。実行部133は、翻訳された文字情報の品質を推定する。実行部133は、適宜の方法により文字情報(翻訳テキスト)の品質推定翻訳精度(品質スコア)を算出する。例えば、実行部133は、翻訳前の文字情報と、翻訳後の文字情報との入力に応じて、その品質推定翻訳精度を示すスコア(品質スコア)を出力するモデル(品質推定モデル)を用いて、品質推定翻訳精度(品質スコア)を算出してもよい。例えば、実行部133は、翻訳前の文字情報、翻訳後の文字情報及びそのスコア(正解スコア)の組合せを学習データとして学習された品質推定モデルを用いて、品質推定翻訳精度(品質スコア)を算出してもよい。実行部133は、翻訳前の文字情報と翻訳後の文字情報とを基に、情報処理システム1の管理者等により設定されたスコア(正解スコア)を含む学習データとして学習された品質推定モデルを用いて、品質推定翻訳精度(品質スコア)を算出してもよい。実行部133は、品質スコアと閾値(例えば0.75等)と比較する。実行部133は、文字情報の品質スコアが閾値以上であれば、その文字情報の品質が高い(ハイスコアである)と判定し、第2文字情報の品質推定翻訳精度(品質スコア)が閾値未満であれば、その第2文字情報の品質が低い(ロースコアである)と判定する。
実行部133は、意味解析が処理に対応する形式に1以上の第2文字情報を正規化する。実行部133は、正規化された1以上の第2文字情報を用いて、意味解析処理を実行する。実行部133は、一の第2文字情報に対して意味解析処理を実行する。実行部133は、複数の第2文字情報を用いて、意味解析処理を実行する。実行部133は、1以上の第2文字情報のうち正規化が不要と判定された第2文字情報に対して、正規化無しで意味解析処理を実行する。実行部133は、1以上の第2文字情報の品質が低い場合、1以上の第2文字情報を用いた意味解析処理を実行しない。実行部133は、1以上の第2文字情報の品質を示す品質スコアが品質閾値より低い場合、1以上の第2文字情報を用いた意味解析処理を実行しない。実行部133は、人による後編集が所定の時間内に完了する場合、後編集により生成された第2文字情報を用いて、意味解析処理を実行する。実行部133は、人による後編集が所定の時間内に完了しない場合、処理中断に関する処理を実行する。実行部133は、処理中断を行うことを通知する処理を実行する。実行部133は、第1言語が意味解析処理を実行可能である場合、第1文字情報に対して意味解析処理を実行する。実行部133は、各言語の意味解析器を用いて言語ごとに意味解析処理を実行する。実行部133は、文字情報の入力に応じて、特定したドメインゴール等の意味フレームの情報と、その精度(確信度)を示すスコア(意味解析スコア)とを出力する意味解析器を用いて、意味解析処理を実行する。
実行部133は、意味解析の精度を示すスコア(意味解析スコア)を算出する。実行部133は、意味解析処理において特定したドメインゴールの確信度(精度)を示す意味解析スコアを算出する。実行部133は、意味解析処理に用いる意味解析器が出力するスコアを意味解析スコアとして用いてもよい。実行部133は、各言語の意味解析処理に用いる言語ごとの意味解析器が出力するスコアを各言語の意味解析スコアとして用いる。なお、実行部133は、種々の技術を適宜用いて、意味解析スコアを算出してもよい。
逆変換部134は、各種情報を変換する。例えば、逆変換部134は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を変換する。逆変換部134は、端末装置10等の他の情報処理装置からの情報に基づいて、各種情報を変換する。逆変換部134は、言語情報記憶部121や意味フレーム情報記憶部122や言語間対応表情報記憶部123や閾値情報記憶部124や知識情報記憶部125に記憶された情報に基づいて、各種情報を変換する。
逆変換部134は、取得部131により取得された各種情報に基づいて、各種情報を変換する。逆変換部134は、変換部132により変換された各種情報に基づいて、各種情報を変換する。逆変換部134は、実行部133により算出された各種情報に基づいて、各種情報を変換する。逆変換部134は、生成部135により生成された各種情報に基づいて、各種情報を変換する。逆変換部134は、変換に基づいて、各種情報を変更する。取得部131により取得された情報に基づいて、各種情報を更新する。
逆変換部134は、1以上の第2言語の各々に対応する意味解析処理の結果を第1言語に変換する。逆変換部134は、意味解析処理の結果のうち一部を第1言語に変換する。逆変換部134は、意味解析処理の結果のうちスロット値を第1言語に変換する。逆変換部134は、一の第2言語に対する意味解析処理の結果を第1言語に変換する。
逆変換部134は、複数の第2言語のうち、所定の条件を満たす第2言語に対する意味解析処理の結果を第1言語に変換する。逆変換部134は、複数の第2言語のうち、意味解析処理のスコアが所定の閾値以上である第2言語に対する意味解析処理の結果を第1言語に変換する。逆変換部134は、複数の第2言語の全てに対する意味解析処理の結果を第1言語に変換する。
逆変換部134は、各種情報を決定する。逆変換部134は、各種情報を判定する。逆変換部134は、各種処理の実行を判定する。逆変換部134は、逆変換の実行要否を判定する。逆変換部134は、逆変換が不要な情報については、第1言語に変換しなくてもよい。逆変換部134は、意味解析処理の結果のうち、逆変換が不要な情報については、第1言語に変換しなくてもよい。逆変換部134は、意味解析処理の結果のうち、言語に共通する情報については、第1言語に変換しなくてもよい。逆変換部134は、スロット値のうち、数値等の言語に共通する情報については、第1言語に変換しなくてもよい。
生成部135は、各種情報を生成する。生成部135は、外部の情報処理装置からの情報や記憶部120に記憶された情報に基づいて、各種情報を生成する。生成部135は、端末装置10等の他の情報処理装置からの情報に基づいて、各種情報を生成する。生成部135は、言語情報記憶部121や意味フレーム情報記憶部122や言語間対応表情報記憶部123や閾値情報記憶部124や知識情報記憶部125に記憶された情報に基づいて、各種情報を生成する。
生成部135は、取得部131により取得された各種情報に基づいて、各種情報を生成する。生成部135は、変換部132により変換された各種情報に基づいて、各種情報を生成する。生成部135は、実行部133の処理実行により生成された各種情報に基づいて、各種情報を生成する。生成部135は、逆変換部134により変換された各種情報に基づいて、各種情報を生成する。
生成部135は、種々の技術を適宜用いて、外部の情報処理装置へ提供する画面(画像情報)等の種々の情報を生成する。生成部135は、端末装置10へ提供する画面(画像情報)等を生成する。例えば、生成部135は、記憶部120に記憶された情報に基づいて、端末装置10へ提供する画面(画像情報)等を生成する。
生成部135は、外部の情報処理装置へ提供する画面(画像情報)等が生成可能であれば、どのような処理により画面(画像情報)等を生成してもよい。例えば、生成部135は、画像生成や画像処理等に関する種々の技術を適宜用いて、端末装置10へ提供する画面(画像情報)を生成する。例えば、生成部135は、Java(登録商標)等の種々の技術を適宜用いて、端末装置10へ提供する画面(画像情報)を生成する。なお、生成部135は、CSSやJavaScript(登録商標)やHTMLの形式に基づいて、端末装置10へ提供する画面(画像情報)を生成してもよい。また、例えば、生成部135は、JPEG(Joint Photographic Experts Group)やGIF(Graphics Interchange Format)やPNG(Portable Network Graphics)など様々な形式で画面(画像情報)を生成してもよい。
生成部135は、正規化の要否を判定する関数を生成してもよい。例えば、生成部135は、正規化の要否を判定するモデルを生成する。生成部135は、図9に示すようなネットワークNW1に対応する正規化判定モデル(正規化判定関数)を生成する。
例えば、生成部135は、正規化が行われた文字情報と、その文字情報に対して正規化が必要であることを示すフラグ「1」とが対応付けられた学習データ(正例)を用いて、正規化判定モデルを生成する。この場合、生成部135は、正例の文字情報が入力された場合に、「1」を出力するように学習処理を行い、正規化判定モデルを生成する。例えば、生成部135は、正規化が行われた文字情報と、その文字情報に対して正規化が不要であることを示すフラグ「0」とが対応付けられた学習データ(負例)を用いて、正規化判定モデルを生成する。この場合、生成部135は、負例の文字情報が入力された場合に、「0」を出力するように学習処理を行い、正規化判定モデルを生成する。
例えば、生成部135は、翻訳前の文字情報、翻訳後の文字情報及びそのスコア(正解スコア)の組合せを含む学習データを用いて、品質推定モデルを生成する。生成部135は、翻訳前の文字情報と翻訳後の文字情報とを基に、情報処理システム1の管理者等により設定されたスコア(正解スコア)を含む学習データを用いて、品質推定モデルを生成する。
送信部136は、各種情報を送信する。送信部136は、外部の情報処理装置へ各種情報を送信する。送信部136は、外部の情報処理装置へ各種情報を提供する。例えば、送信部136は、端末装置10等の他の情報処理装置へ各種情報を送信する。送信部136は、記憶部120に記憶された情報を提供する。送信部136は、記憶部120に記憶された情報を送信する。
送信部136は、端末装置10等の他の情報処理装置からの情報に基づいて、各種情報を提供する。送信部136は、記憶部120に記憶された情報に基づいて、各種情報を提供する。送信部136は、言語情報記憶部121や意味フレーム情報記憶部122や言語間対応表情報記憶部123や閾値情報記憶部124や知識情報記憶部125に記憶された情報に基づいて、各種情報を提供する。
送信部136は、端末装置10に実行させる機能を示す情報を端末装置10に送信する。送信部136は、実行部133により選択された機能(サービス)を示す情報を端末装置10に送信する。送信部136は、実行部133による指示に応じて、端末装置10に各種の情報を送信する。送信部136は、端末装置10に機能(サービス)の実行を指示する情報を送信する。送信部136は、生成部135によって生成された画像情報を送信する。
[1−4.正規化判定及び正規化処理]
ここで正規化判定及び正規化処理について説明する。
[1−4−1.後処理正規化]
まず、図8を用いて後処理正規化における正規化判定について詳述する。図8は、本開示の実施形態に係る正規化判定の一例を示す図である。
図8の例では、情報処理装置100は、翻訳後のテキストに対して、正規化判定モデルMD1により、意味解析器の想定入力の表現に変換する必要があるかを判定する。例えば、情報処理装置100は、正規化判定モデルMD1の出力の変換フラグが1の場合に実行され、翻訳結果のテキストを、意味解析器が想定する表現に変換する。図8の例では、正規化判定モデルMD1は、「アーティストXXX再生する」が入力された場合、変換フラグ「1」を出力する。これにより、情報処理装置100は、「アーティストXXX再生する」に対して後処理正規化処理を行うと判定する。そして、情報処理装置100は、「アーティストXXX再生する」に対して後処理正規化処理を行うことで、「アーティストXXXの曲を再生して」と口語調の形式に正規化する。このように、情報処理装置100は、発話依頼調の表現および、曲を追加することによるあいまい性を解消する。
また、図8の例では、正規化判定モデルMD1は、「アーティストXXXの曲を再生して」が入力された場合、変換フラグ「0」を出力する。これにより、情報処理装置100は、「アーティストXXXの曲を再生して」に対して後処理正規化処理を行わないと判定する。このように、情報処理装置100は、発話依頼調の表現および、あいまい性が低い第2文字情報の場合、後処理正規化を行うことなく意味解析処理を行う。
このように、情報処理装置100は、後処理正規化処理により変換する必要があるかないかを変換フラグで判断可能である。例えば、正規化判定モジュールは、大きくルールベースによる判定と、機械学習によるモデル化するパターンが想定される。機械学習のモデル化の場合、訓練フェーズ(学習時)において、文字情報「音楽を再生する」に判定フラグ「1」を対応付け、「音楽をかけて」に判定フラグ「0」を対応付けた学習データを用いて正規化判定モデルMD1を生成する。このように、文字情報と判定フラグ(変換フラグとを対応付けて、文字情報に対して、変換フラグ(1か0)の教師あり学習により、モデル化しておく。推論フェーズにおいて、モデルに文を入力すると、変換フラグを判定する機能となる。
例えば、情報処理装置100は、意味解析器の想定入力の表現に変換する必要がある文字情報が入力された場合に1に近い変換フラグ(スコア)を出力する正規化判定モデルMD1により、正規化判定を行う。情報処理装置100は、意味解析器の想定入力の表現に変換する必要がない文字情報が入力された場合に0に近い変換フラグ(スコア)を出力する正規化判定モデルMD1により、正規化判定を行う。
例えば、情報処理装置100は、文字情報が入力された正規化判定モデルMD1が出力した変換フラグ(スコア)と正規化判定用の閾値(例えば0.5や0.7等)とを比較して、その文字情報に対して意味解析器の想定入力の表現に変換する必要があるかを判定する。情報処理装置100は、文字情報が入力された正規化判定モデルMD1が出力した変換フラグ(スコア)が正規化判定用の閾値以上である場合、その文字情報に対して意味解析器の想定入力の表現に変換する必要があると判定する。情報処理装置100は、文字情報が入力された正規化判定モデルMD1が出力した変換フラグ(スコア)が正規化判定用の閾値未満である場合、その文字情報に対して意味解析器の想定入力の表現に変換する必要がないと判定してもよい。
また、情報処理装置100は、正規化判定モデルMD1について種々の関数を用いてもよい。例えば、情報処理装置100は、SVM(Support Vector Machine)等の回帰モデルやニューラルネットワーク(neural network)等、任意の形式のモデル(正規化判定モデル)を用いてもよい。情報処理装置100は、非線形の回帰モデルや線形の回帰モデル等、種々の回帰モデルを用いてもよい。
この点について、図9を用いて一例を説明する。図9は、正規化判定モデルに対応するネットワークの一例を図である。図9は、正規化判定モデルの一例を示す概念図である。図9に示すネットワークNW1は、入力層INLと出力層OUTLとの間に複数(多層)の中間層を含むニューラルネットワークを示す。例えば、情報処理装置100は、図9に示すネットワークNW1に対応する関数を用いて、変換フラグ(スコア)を算出してもよい。
ネットワークNW1のような関数を用いて変換フラグ(スコア)を算出する場合、情報処理装置100は、ネットワークNW1中の入力層INLに情報を入力することにより、出力層OUTLから入力に対応するスコア(数値)を出力させる。なお、図9に示すネットワークNW1は、正規化判定モデルの一例に過ぎず、変換フラグ(スコア)を出力する関数であれば、どのような関数であってもよい。
また、情報処理装置100は、種々の学習手法に基づいて、学習処理を行うことにより、図9に示すようなネットワークNW1に対応する正規化判定モデルを生成してもよい。情報処理装置100は、機械学習に関する手法に基づいて、学習処理を行うことにより、正規化判定モデルを生成してもよい。なお、上記は一例であり、情報処理装置100は、図9に示すようなネットワークNW1に対応する正規化判定モデルを生成可能であれば、どのような学習手法により正規化判定モデルを生成してもよい。
また、情報処理装置100は、後処理正規化を行うと判定された文字情報を種々の方法により正規化する。例えば、情報処理装置100は、後処理正規化を行うモデル(後処理正規化モデル)を生成し、後処理正規化モデルを用いて第2文字情報を正規化してもよい。例えば、情報処理装置100は、文字情報が入力に応じて、その文字情報に対して後処理正規化が行われた文字情報を出力する後処理正規化モデルを用いて、正規化された第2文字情報を生成してもよい。この場合、例えば、情報処理装置100は、正規化判定モデルMD1により正規化の必要があると判定された第2文字情報を、後処理正規化モデルに入力することにより、正規化された第2文字情報を生成してもよい。
後処理正規化モデルには、RNN(Recurrent Neural Network)等の種々のネットワーク(ニューラルネットワーク)が用いられてもよい。例えば、後処理正規化モデルには、GRU(Gated Recurrent Unit)やLSTM(Long Short-Term Memory)等が用いられてもよい。なお、上記は一例であり、情報処理装置100は、文字情報に対して後処理正規化が可能であれば、どのような手法により、後処理正規化を行ってもよい。
例えば、後処理正規化モデルは、後処理正規化前の文字情報と、後処理正規化後の文字情報との組合せを学習データとして生成される。例えば、後処理正規化モデルは、後処理正規化前の文字情報が入力された場合に、対応する後処理正規化後の文字情報が出力されるように学習処理が行われることにより、生成される。情報処理装置100は、外部の情報処理装置から取得した後処理正規化モデルを用いてもよい。また、情報処理装置100は、後処理正規化モデルを生成してもよい。
また、例えば、情報処理装置100は、正規化前後の対応付けを示す一覧情報(「後処理ルール情報群」ともいう)を用いて、後処理正規化を行ってもよい。この場合、例えば、情報処理装置100は、正規化判定モデルMD1により正規化の必要があると判定した場合、後処理ルール情報群からその第2文字情報に対応する後処理ルール情報を抽出し、その後処理ルール情報に対応する正規化(変換)を行う。例えば、情報処理装置100は、第2文字情報「音楽を再生する」の正規化が必要と判定した場合、後処理ルール情報群から語尾が「〜する」である文字情報の場合、語尾を「〜して」に変換するという後処理ルール情報を抽出する。そして、情報処理装置100は、抽出した後処理ルール情報を用いて、第2文字情報「音楽を再生する」を正規化する。この場合、情報処理装置100は、後処理正規化が必要と判定された第2文字情報「音楽を再生する」を正規化された第2文字情報「音楽を再生して」に変換する。このように、情報処理装置100は、正規化の必要がある場合のみ第2文字情報の正規化を行い、正規化の必要がない場合、すなわち正規化された第2文字情報である場合は、そのまま第2文字情報を用いて意味解析等の処理を行う。情報処理装置100は、既に第2文字情報が正規化された状態である場合、後処理正規化を行うことなくそのままの第2文字情報(すなわち正規化された第2文字情報)を用いて、意味解析等の処理を行う。
[1−4−2.前処理正規化]
また、情報処理装置100は、前処理正規化については、上述した後処理正規化と同様に判定モデルを用いて行ってもよい。また、情報処理装置100は、前処理正規化については、ルールベースで処理を行ってもよい。この場合、情報処理装置100は、前処理正規化を行う条件を示す情報と、その条件を満たした場合の変換(正規化)の内容を示す情報を対応付けたルール情報(「前処理ルール情報」ともいう)を用いて、処理を行ってもよい。例えば、前処理ルール情報には、語尾が「〜して」である文字情報の場合、語尾を「〜する」に変換することを示す情報等の多数の条件と変換とを対応付けた情報が含まれる。前処理ルール情報は、記憶部120に記憶されてもよい。例えば、情報処理装置100は、ルールに該当した場合、前処理正規化を行ってもよい。なお、上記は一例であり、情報処理装置100は、種々の情報を適宜用いて前処理正規化やその正規化判定を行ってもよい。
また、情報処理装置100は、前処理正規化を行うと判定された文字情報を種々の方法により正規化する。例えば、情報処理装置100は、前処理正規化を行うモデル(前処理正規化モデル)を生成し、前処理正規化モデルを用いて文字情報を正規化してもよい。例えば、情報処理装置100は、文字情報が入力に応じて、その文字情報に対して前処理正規化が行われた文字情報を出力する前処理正規化モデルを用いて、正規化された第1文字情報を生成してもよい。この場合、例えば、情報処理装置100は、正規化判定モデルMD1により正規化の必要があると判定された文字情報(発話情報)を、前処理正規化モデルに入力することにより、正規化された文字情報(第1文字情報)を生成してもよい。
前処理正規化モデルには、後処理正規化モデルと同様に、GRUやLSTM等のRNN等の種々のネットワーク(ニューラルネットワーク)が用いられてもよい。なお、上記は一例であり、情報処理装置100は、文字情報に対して前処理正規化が可能であれば、どのような手法により、前処理正規化を行ってもよい。
例えば、前処理正規化モデルは、前処理正規化前の文字情報と、前処理正規化後の文字情報との組合せを学習データとして生成される。例えば、前処理正規化モデルは、前処理正規化前の文字情報が入力された場合に、対応する前処理正規化後の文字情報が出力されるように学習処理が行われることにより、生成される。情報処理装置100は、外部の情報処理装置から取得した前処理正規化モデルを用いてもよい。また、情報処理装置100は、前処理正規化モデルを生成してもよい。
また、例えば、情報処理装置100は、正規化前後の対応付けを示す一覧情報(前処理ルール情報群)を用いて、前処理正規化を行ってもよい。この場合、例えば、情報処理装置100は、正規化判定モデルにより正規化の必要があると判定した場合、前処理ルール情報群からその文字情報に対応する前処理ルール情報を抽出し、その前処理ルール情報に対応する正規化(変換)を行う。例えば、情報処理装置100は、文字情報「音楽を再生して」の正規化が必要と判定した場合、前処理ルール情報群から語尾が「〜して」である文字情報の場合、語尾を「〜する」に変換するという前処理ルール情報を抽出する。そして、情報処理装置100は、抽出した前処理ルール情報を用いて、文字情報「音楽を再生して」を正規化する。この場合、情報処理装置100は、前処理正規化が必要と判定された文字情報「音楽を再生して」を正規化された文字情報「音楽を再生する」に変換する。
[1−5.実施形態に係る端末装置の構成]
次に、実施形態に係る情報処理を実行する情報処理装置の一例である端末装置10の構成について説明する。図10は、本開示の実施形態に係る端末装置の構成例を示す図である。
図10に示すように、端末装置10は、通信部11と、入力部12と、出力部13と、記憶部14と、制御部15と、センサ部16と、表示部17とを有する。
通信部11は、例えば、NICや通信回路等によって実現される。通信部11は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、情報処理装置100等の他の装置等との間で情報の送受信を行う。
入力部12は、各種入力を受け付ける。入力部12は、センサ部16による検知を入力として受け付ける。入力部12は、ユーザの発話情報の入力を受け付ける。入力部12は、ユーザの身体動作による入力を受け付ける。入力部12は、ユーザのジェスチャや視線を入力として受け付ける。
入力部12は、ユーザから各種操作が入力される。入力部12は、音声を検知する機能を有するセンサ部16により音を入力として受け付ける。入力部12は、音声を検知するマイク(音センサ)により検知された音声情報を入力情報として受け付ける。入力部12は、ユーザの発話による音声を入力情報として受け付ける。
また、入力部12は、ユーザが利用する端末装置10への操作(ユーザ操作)をユーザによる操作入力として受け付けてもよい。入力部12は、通信部11を介して、リモコン(リモートコントローラー:remote controller)を用いたユーザの操作に関する情報を受け付けてもよい。また、入力部12は、端末装置10に設けられたボタンや、端末装置10に接続されたキーボードやマウスを有してもよい。
例えば、入力部12は、リモコンやキーボードやマウスと同等の機能を実現できるタッチパネルを有してもよい。この場合、入力部12は、表示部17を介して各種情報が入力される。入力部12は、各種センサにより実現されるタッチパネルの機能により、表示画面を介してユーザから各種操作を受け付ける。すなわち、入力部12は、端末装置10の表示部17を介してユーザから各種操作を受け付ける。例えば、入力部12は、端末装置10の表示部17を介してユーザの指定操作等の操作を受け付ける。例えば、入力部12は、タッチパネルの機能によりユーザの操作を受け付ける受付部として機能する。この場合、入力部12と受付部153とは一体であってもよい。なお、入力部12によるユーザの操作の検知方式には、タブレット端末では主に静電容量方式が採用されるが、他の検知方式である抵抗膜方式、表面弾性波方式、赤外線方式、電磁誘導方式など、ユーザの操作を検知できタッチパネルの機能が実現できればどのような方式を採用してもよい。
例えば、入力部12は、ユーザの発話を入力として受け付ける。入力部12は、センサ部16により検知されたユーザの発話を入力として受け付ける。入力部12は、センサ部16の音センサにより検知されたユーザの発話を入力として受け付ける。
出力部13は、各種情報を出力する。出力部13は、音声を出力する機能を有する。例えば、出力部13は、音声を出力するスピーカーを有する。出力部13は、実行部152による制御に応じて、各種情報を音声出力する。出力部13は、ユーザに対して音声による情報の出力を行う。出力部13は、表示部17に表示される情報を音声により出力する。
記憶部14は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14は、情報の表示に用いる各種情報を記憶する。
図10に戻り、説明を続ける。制御部15は、例えば、CPUやMPU等によって、端末装置10内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム等の表示プログラム)がRAM等を作業領域として実行されることにより実現される。また、制御部15は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
図10に示すように、制御部15は、受信部151と、実行部152と、受付部153と、送信部154とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図10に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
受信部151は、各種情報を受信する。受信部151は、外部の情報処理装置から各種情報を受信する。受信部151は、情報処理装置100等の他の情報処理装置から各種情報を受信する。
受信部151は、情報処理装置100から機能(サービス)の実行を指示する情報を受信する。受信部151は、情報処理装置100から各種機能(サービス)の実行指示を受信する。例えば、受信部151は、情報処理装置100から機能(サービス)を指定する情報を機能の実行指示として受信する。受信部151は、コンテンツを受信する。受信部151は、情報処理装置100から表示するコンテンツを受信する。
実行部152は、各種処理を実行する。実行部152は、各種処理の実行を決定する。実行部152は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部152は、情報処理装置100からの情報に基づいて、各種処理を実行する。実行部152は、情報処理装置100からの指示に応じて、各種処理を実行する。実行部152は、記憶部14に記憶された情報に基づいて、各種処理を実行する。実行部152は、機能(サービス)を実行する。
実行部152は、各種出力を制御する。実行部152は、出力部13による音声出力を制御する。実行部152は、各種表示を制御する。実行部152は、表示部17の表示を制御する。実行部152は、受信部151による受信に応じて、表示部17の表示を制御する。実行部152は、受信部151により受信された情報に基づいて、表示部17の表示を制御する。実行部152は、受付部153により受け付けられた情報に基づいて、表示部17の表示を制御する。実行部152は、受付部153による受付けに応じて、表示部17の表示を制御する。
受付部153は、各種情報を受け付ける。受付部153は、入力部12を介してユーザによる入力を受け付ける。受付部153は、ユーザによる発話を入力として受け付ける。受付部153は、ユーザによる操作を受け付ける。受付部153は、表示部17により表示された情報に対するユーザの操作を受け付ける。受付部153は、ユーザによる文字入力を受け付ける。
送信部154は、外部の情報処理装置へ各種情報を送信する。例えば、送信部154は、情報処理装置100等の他の情報処理装置へ各種情報を送信する。送信部154は、記憶部14に記憶された情報を送信する。
送信部154は、情報処理装置100等の他の情報処理装置からの情報に基づいて、各種情報を送信する。送信部154は、記憶部14に記憶された情報に基づいて、各種情報を送信する。
送信部154は、センサ部16により検知されたセンサ情報を情報処理装置100へ送信する。送信部154は、センサ部16の音センサにより検知されたユーザの発話情報を情報処理装置100へ送信する。
送信部154は、ユーザにより入力された入力情報を情報処理装置100へ送信する。送信部154は、ユーザにより音声入力された入力情報を情報処理装置100へ送信する。送信部154は、ユーザの操作により入力された入力情報を情報処理装置100へ送信する。送信部154は、第1言語によるユーザの発話情報を情報処理装置100へ送信する。送信部154は、第1言語によるユーザの発話に対応する第1文字情報を情報処理装置100へ送信する。
センサ部16は、種々のセンサ情報を検知する。センサ部16は、音を検知する音センサ(スピーカ)を有する。センサ部16は、画像を撮像する撮像部としての機能を有する。センサ部16は、画像センサの機能を有し、画像情報を検知する。センサ部16は、画像を入力として受け付ける画像入力部として機能する。なお、センサ部16は、上記に限らず、種々のセンサを有してもよい。センサ部16は、位置センサ、加速度センサ、ジャイロセンサ、温度センサ、湿度センサ、照度センサ、圧力センサ、近接センサ、ニオイや汗や心拍や脈拍や脳波等の生体情報を受信のためのセンサ等の種々のセンサを有してもよい。また、センサ部16における上記の各種情報を検知するセンサは共通のセンサであってもよいし、各々異なるセンサにより実現されてもよい。
表示部17は、端末装置10に設けられ各種情報を表示する。表示部17は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現される。表示部17は、情報処理装置100から提供される情報を表示可能であれば、どのような手段により実現されてもよい。表示部17は、実行部152による制御に応じて、各種情報を表示する。
表示部17は、受信部151により受信された各種情報を表示する。表示部17は、情報処理装置100から受信した応答を表示する。表示部17は、言語変換に関する情報を表示する。
[1−6.応答例]
ここで、図11を用いて応答例を説明する。図11は、本開示の実施形態に係る応答の一例を示す図である。図11は、言語が認識できる形式の応答例を示す。
情報処理システム1は、入力言語と意味解析処理を行った言語が異なる場合、そのことをユーザに認識させる情報を出力してもよい。例えば、情報処理システム1は、入力言語を翻訳して、翻訳した情報を用いて意味解析処理したことがわかるように、応答の際に、入力時、解析時、出力時の3フェーズにて、どの言語で処理したかがわかる形式で出力する。
例えば、端末装置10は、表示部17に言語が認識できる形式の応答を表示する。図11の例では、情報処理システム1は、入力言語(第1言語)がミャンマー語であり、意味解析を行った特定言語(第2言語)が日本語であり、出力言語(第1言語)がミャンマー語であることを示す情報を出力する。このように、情報処理システム1は、応答の際に、入力時、解析時、出力時の3フェーズにて、どの言語で処理したかがわかる形式で出力する。
[1−7.実施形態に係る情報処理の手順]
次に、図12〜図14を用いて、実施形態に係る各種情報処理の手順について説明する。
[1−7−1.情報処理装置に係る処理の手順]
まず、図12を用いて、本開示の実施形態に係る情報処理装置に係る処理の流れについて説明する。図12は、本開示の実施形態に係る情報処理装置の処理を示すフローチャートである。具体的には、図12は、情報処理装置100による情報処理の手順を示すフローチャートである。
図12に示すように、情報処理装置100は、第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換する(ステップS101)。そして、情報処理装置100は、1以上の第2文字情報を用いて、意味解析処理を実行する(ステップS102)。例えば、情報処理装置100は、正規化された第2文字情報を用いて、意味解析処理を実行する。
[1−7−2.情報処理システムに係る処理の手順]
次に、図13を用いて、情報処理システムに係る具体的な処理の一例について説明する。図13は、本開示の実施形態に係る情報処理システムの処理を示すフローチャートである。なお、以下では、情報処理システム1が処理を行う場合を一例として説明するが、図13に示す処理は、情報処理システム1に含まれる情報処理装置100及び端末装置10のいずれの装置が行ってもよい。
図13に示すように、情報処理システム1は、ユーザによる発話の音声情報を取得する(ステップS201)。例えば、情報処理システム1は、入力言語(第1言語)でのユーザによる発話の音声情報を取得する。
そして、情報処理システム1は、音声認識の処理を行う(ステップS202)。情報処理システム1は、ユーザによる発話の音声情報に対する音声認識の処理を行う。例えば、情報処理システム1は、音声認識により入力言語(第1言語)でのユーザによる発話のテキスト(文字情報)を発話情報として取得する。例えば、情報処理システム1は、言語識別(音声認識)が可能な言語かを判定し、可能な場合、音声認識の処理を行う。なお、情報処理システム1は、言語識別(音声認識)が可能な言語ではない場合、処理を終了してもよい。この場合、情報処理システム1は、対応可能な言語ではないことをユーザに通知してもよい。例えば、情報処理システム1は、発話情報を第1文字情報として用いる。なお、情報処理システム1は、発話情報の正規化が必要な場合、発話情報を第1文字情報に正規化してもよい。
そして、情報処理システム1は、ユーザによる発話に対応する第1言語が特定言語かどうかを判定する(ステップS203)。情報処理システム1は、第1言語が特定言語ではない場合(ステップS203:No)、特定言語へ翻訳する(ステップS204)。情報処理システム1は、言語間対応表を用いて特定言語へ翻訳する。情報処理システム1は、言語間対応表を用いて特定言語を選択する。情報処理システム1は、第1言語が特定言語ではない場合、特定言語へ翻訳した翻訳テキストを生成する。例えば、情報処理システム1は、第1言語が特定言語ではない場合、第1言語の第1文字情報を特定言語である第2言語の第2文字情報(翻訳テキスト)へ変換する。
そして、情報処理システム1は、正規化判定を行う(ステップS205)。情報処理システム1は、翻訳テキストの正規化が必要と判定した場合(ステップS205:Yes)、第2文字情報の正規化(後処理正規化)を行う(ステップS206)。情報処理システム1は、後処理正規化により、正規化された第2文字情報(正規化テキスト)を生成する。例えば、情報処理システム1は、後処理正規化により、意味解析処理に対応する形式に文字情報の形式を正規化する。情報処理システム1は、第2文字情報が文語調である場合、第2文字情報を口語調に変換(正規化)する処理を実行する。
そして、情報処理システム1は、発話意味解析処理を行う(ステップS207)。この場合、例えば、情報処理システム1は、後処理正規化により正規化された第2文字情報(正規化テキスト)を用いて、発話意味解析処理を行う。
また、情報処理システム1は、翻訳テキストの正規化が不要と判定した場合(ステップS205:No)、第2文字情報の正規化(後処理正規化)を行わずに、ステップS207の処理を行う。この場合、例えば、情報処理システム1は、翻訳テキストを用いて、発話意味解析処理を行う。
また、情報処理システム1は、第1言語が特定言語である場合(ステップS203:Yes)、翻訳を行うことなく、ステップS207の処理を行う。この場合、例えば、情報処理システム1は、第1文字情報を用いて、発話意味解析処理を行う。
例えば、情報処理システム1は、ステップS207の発話意味解析処理により、特定言語での意味フレームの情報を生成する。そして、情報処理システム1は、スロット逆変換を行う(ステップS208)。情報処理システム1は、意味フレーム中のスロット値を入力言語(第1言語)のスロット値に変換する。情報処理システム1は、特定言語(第2言語)のスロット値を入力言語(第1言語)のスロット値に変換する。なお、情報処理システム1は、第1言語が特定言語である場合など、逆変換が不要の場合はステップS208を行わなくてもよい。
そして、情報処理システム1は、応答生成を行う(ステップS209)。情報処理システム1は、画像や音やテキストなど、出力態様に応じた情報の生成を行う。そして、情報処理システム1は、生成した情報を出力する(ステップS210)。情報処理システム1は、画像やテキストを表示したり、音を出力したりする。
[1−7−3.情報処理システムに係る処理の他の手順]
次に、図14を用いて、情報処理システムに係る具体的な処理の他の一例について説明する。図14は、本開示の実施形態に係る情報処理システムの処理を示すフローチャートである。なお、以下では、情報処理システム1が処理を行う場合を一例として説明するが、図14に示す処理は、情報処理システム1に含まれる情報処理装置100及び端末装置10のいずれの装置が行ってもよい。図13と同様の点については適宜説明を省略する。
図14に示すように、情報処理システム1は、ユーザによる発話の音声情報を取得する(ステップS301)。例えば、情報処理システム1は、入力言語(第1言語)でのユーザによる発話の音声情報を取得する。
そして、情報処理システム1は、音声認識の処理を行う(ステップS302)。情報処理システム1は、ユーザによる発話の音声情報に対する音声認識の処理を行う。例えば、情報処理システム1は、音声認識により入力言語(第1言語)でのユーザによる発話のテキスト(発話情報)を発話情報として取得する。
そして、情報処理システム1は、対象外言語かを判定する(ステップS303)。例えば、情報処理システム1は、言語識別(音声認識)できない言語を対象外言語であると判定する。
情報処理システム1は、対象外言語ではないと判定した場合(ステップS303:No)、ユーザによる発話に対応する第1言語が特定言語かどうかを判定する(ステップS304)。例えば、情報処理システム1は、言語識別(音声認識)が可能である判定した場合、入力言語(第1言語)を対象言語と判定し、第1言語が特定言語かどうかを判定する。
情報処理システム1は、第1言語が特定言語ではない場合(ステップS304:No)、正規化判定を行う(ステップS305)。情報処理システム1は、テキスト(発話情報)の正規化が必要と判定した場合(ステップS305:Yes)、テキスト(発話情報)の正規化(前処理正規化)を行う(ステップS306)。情報処理システム1は、前処理正規化により、正規化された第1文字情報(正規化テキスト)を生成する。例えば、情報処理システム1は、前処理正規化により、翻訳処理に対応する形式に文字情報の形式を正規化する。情報処理システム1は、ユーザの発話情報が口語調である場合、ユーザの発話情報を文語調に変換(正規化)する処理を実行する。
そして、情報処理システム1は、特定言語へ翻訳する(ステップS307)。この場合、例えば、情報処理システム1は、前処理正規化により正規化された第1文字情報(正規化テキスト)を、特定言語へ翻訳する。情報処理システム1は、言語間対応表を用いて特定言語へ翻訳する。情報処理システム1は、言語間対応表を用いて特定言語を選択する。
また、情報処理システム1は、テキスト(発話情報)の正規化が不要と判定した場合(ステップS305:No)、テキスト(発話情報)の正規化(前処理正規化)を行わずに、ステップS307の処理を行う。この場合、例えば、情報処理システム1は、テキスト(発話情報)を第1文字情報として、特定言語へ翻訳する。このように、情報処理システム1は、第1言語が特定言語ではない場合、特定言語へ翻訳した翻訳テキストを生成する。例えば、情報処理システム1は、第1言語が特定言語ではない場合、第1言語の第1文字情報を特定言語である第2言語の第2文字情報(翻訳テキスト)へ変換する。
そして、情報処理システム1は、品質推定を行う(ステップS308)。例えば、情報処理システム1は、特定言語へ翻訳された第2文字情報(翻訳テキスト)の品質を推定する。例えば、情報処理システム1は、適宜の方法により第2文字情報(翻訳テキスト)の品質推定翻訳精度(品質スコア)を算出し、その品質推定翻訳精度(品質スコア)と閾値(例えば0.75等)と比較する。そして、情報処理システム1は、第2文字情報の品質推定翻訳精度(品質スコア)が閾値以上であれば、その第2文字情報の品質が高い(ハイスコアである)と判定し、第2文字情報の品質推定翻訳精度(品質スコア)が閾値未満であれば、その第2文字情報の品質が低い(ロースコアである)と判定する。
情報処理システム1は、品質が低いと推定(判定)した場合(ステップS308:LOW)、人手での編集が所定の時間内に完了するか判定する(ステップS309)。
情報処理システム1は、人手での編集が所定の時間内に完了すると判定した場合(ステップS309:SHORT TIME)、人手により編集された第2文字情報を用いてS311の後処理正規化を行う。
また、情報処理システム1は、品質が高いと推定(判定)した場合(ステップS308:HIGH)、正規化判定を行う(ステップS310)。情報処理システム1は、翻訳テキストの正規化が必要と判定した場合(ステップS310:Yes)、第2文字情報の正規化(後処理正規化)を行う(ステップS311)。情報処理システム1は、後処理正規化により、正規化された第2文字情報(正規化テキスト)を生成する。そして、情報処理システム1は、発話意味解析処理を行う(ステップS312)。この場合、例えば、情報処理システム1は、後処理正規化により正規化された第2文字情報(正規化テキスト)を用いて、発話意味解析処理を行う。
また、情報処理システム1は、翻訳テキストの正規化が不要と判定した場合(ステップS310:No)、第2文字情報の正規化(後処理正規化)を行わずに、ステップS312の処理を行う。この場合、例えば、情報処理システム1は、翻訳テキストを用いて、発話意味解析処理を行う。例えば、情報処理システム1は、ステップS312の発話意味解析処理により、全言語(特定言語)での意味フレームの情報を生成する。
また、情報処理システム1は、第1言語が特定言語である場合(ステップS304:Yes)、翻訳を行うことなく、ステップS312の処理を行う。この場合、例えば、情報処理システム1は、第1文字情報を用いて、発話意味解析処理を行う。例えば、情報処理システム1は、ステップS312の発話意味解析処理により、第1言語(特定言語)での意味フレームの情報を生成する。
そして、情報処理システム1は、特定言語の選択を行う(ステップS313)。例えば、情報処理システム1は、ステップS312の発話意味解析処理が行われた言語(特定言語)が複数ある場合、その後の処理に用いる特定言語を選択する。なお、情報処理システム1は、ステップS312の発話意味解析処理が行われた言語(特定言語)が1つである場合、その言語をその後の処理に用いる特定言語として選択する。
そして、情報処理システム1は、スロット逆変換を行う(ステップS314)。情報処理システム1は、意味フレーム中のスロット値を入力言語(第1言語)のスロット値に変換する。情報処理システム1は、特定言語(第2言語)のスロット値を入力言語(第1言語)のスロット値に変換する。なお、情報処理システム1は、第1言語が特定言語である場合など、逆変換が不要の場合はステップS314を行わなくてもよい。
そして、情報処理システム1は、応答生成を行う(ステップS315)。情報処理システム1は、画像や音やテキストなど、出力態様に応じた情報の生成を行う。
また、情報処理システム1は、対象外言語であると判定した場合(ステップS303:Yes)、処理を棄却する(ステップS316)。例えば、情報処理システム1は、対象外言語であると判定した場合、処理を中断する。そして、情報処理システム1は、中断理由を用いて、ステップS315の応答生成を行う。例えば、情報処理システム1は、中断理由を用いて「対象外の言語のため処理を中断します」といった応答生成を行う。
また、情報処理システム1は、人手での編集が所定の時間内に完了しないと判定した場合(ステップS309:LONG TIME)、処理を棄却する(ステップS316)。例えば、情報処理システム1は、人手での編集が所定の時間内に完了しないと判定した場合、処理を中断する。そして、情報処理システム1は、中断理由を用いて、ステップS315の応答生成を行う。例えば、情報処理システム1は、中断理由を用いて「翻訳に時間を要するため処理を中断します」といった応答生成を行う。
そして、情報処理システム1は、生成した情報を出力する(ステップS317)。情報処理システム1は、画像やテキストを表示したり、音を出力したりする。
[1−8.情報処理システムによる処理の概念図]
ここで、図15を用いて、情報処理システム1における各機能やハードウェア構成や処理を概念的に示す。図15は、情報処理システムによる処理の一例を示す概念図である。図15に示すシステム処理PS1は、情報処理システム1により実現される処理の一例を示す。例えば、図15は、情報処理システム1の構成概略図を示す。図15中の正規化判定、前処理正規化、後処理正規化、応答生成、特定言語翻訳器、言語間対応表、スロット逆変換が意味解析の多言語化を実現する上で重要なポイントとなる、例えば、正規化判定、前処理正規化、後処理正規化、応答生成は意味解析の性能を担保する上で非常に重要な部分となる。
図15に示すシステム処理PS1は、ユーザの発話が入力されてから、応答が出力されるまでの各処理や、各処理を実現するための機能やハードウェア構成を概念的に示す図である。例えば、システム処理PS1に示す各処理は、情報処理装置100により実行される。また、例えば、システム処理PS1中の特定言語翻訳器は、情報処理装置100の変換部132の機能により実現される。例えば、システム処理PS1中の発話意味解析器は、情報処理装置100の実行部133の機能により実現される。なお、以下では、情報処理システム1が処理を行う場合を一例として説明するが、図15に示す処理は、情報処理システム1に含まれる情報処理装置100及び端末装置10のいずれの装置が行ってもよい。図13や図14と同様の点については適宜説明を省略する。
システム処理PS1に示すように、情報処理システム1は、ユーザによる発話に対して言語識別の処理を行う。そして、情報処理システム1は、入力された発話の言語(入力言語)について言語識別ができた場合、その入力言語(第1言語)が特定言語であるかを判定する。
情報処理システム1は、入力言語(第1言語)が特定言語である場合、第1言語を対象として発話意味解析器により意味解析処理を行う。そして、情報処理システム1は、特定言語の意味解析処理の結果を基にスコアリング等の処理を行うが、この点は後述する。
一方、情報処理システム1は、入力言語(第1言語)が特定言語ではない場合、第1言語を対象として正規化判定を行う。
情報処理システム1は、入力変更の必要があると判定した場合、テキスト(発話情報)の正規化(前処理正規化)を行う。例えば、情報処理システム1は、第1言語によるユーザの発話に対応するテキスト(発話情報)の正規化が必要と判定した場合、テキスト(発話情報)の正規化(前処理正規化)を行う。
そして、情報処理システム1は、言語間対応表を用いて、特定言語翻訳器により特定言語へ翻訳する。例えば、情報処理システム1は、前処理正規化により正規化された第1文字情報を、特定言語翻訳器により特定言語(第2言語)へ翻訳する。
また、情報処理システム1は、入力変更の必要がないと判定した場合、テキスト(発話情報)の正規化(前処理正規化)を行わずに、テキスト(発話情報)を第1文字情報として、特定言語へ翻訳する。例えば、情報処理システム1は、テキスト(発話情報)の正規化が不要と判定した場合、言語間対応表を用いて、テキスト(発話情報)を特定言語翻訳器により特定言語(第2言語)へ翻訳する。
そして、情報処理システム1は、翻訳結果の品質推定を行う。例えば、情報処理システム1は、各特定言語へ翻訳された各第2文字情報の品質を推定する。
また、情報処理システム1は、少なくとも1つの言語(特定言語)がハイスコアであると判定した場合、ハイスコアである特定言語を対象に正規化判定を行う。情報処理システム1は、各特定言語へ翻訳された各第2文字情報のうち、少なくとも1つの品質が高いと判定した場合、品質が高い第2文字情報を対象として正規化判定を行う。この場合、ロースコアであると判定された言語(特定言語)がある場合、情報処理システム1は、その言語については処理を中断することを示す応答を生成する。すなわち、情報処理システム1は、各特定言語へ翻訳された各第2文字情報のうち、品質が低いと判定した第2文字情報については、処理を中断することを示す応答を生成する。この場合、情報処理システム1は、「XX言語からYY言語への翻訳精度が低いため中断します」といった応答生成を行う。例えば、情報処理システム1は、「入力言語で韓国語から意味解析用の英語への翻訳への翻訳精度が低いため中断します」といった応答生成を行う。
上述のように、情報処理システム1は、ハイスコアである特定言語(例えば翻訳の品質が高い第2文字情報)について正規化判定を行う。
情報処理システム1は、特定言語について出力変更の必要があると判定した場合、その特定言語の第2文字情報の正規化(後処理正規化)を行う。例えば、情報処理システム1は、第2文字情報の正規化が必要と判定した場合、その第2文字情報の正規化(後処理正規化)を行う。そして、情報処理システム1は、正規化された第2文字情報を対象として発話意味解析器により意味解析処理を行う。また、情報処理システム1は、出力変更の必要がないと判定した場合、その特定言語の第2文字情報に正規化処理を行わない。例えば、情報処理システム1は、第2文字情報の正規化が必要ないと判定した場合、その第2文字情報を対象として発話意味解析器により意味解析処理を行う。これにより、情報処理システム1は、各特定言語について意味解析処理を行う。そして、情報処理システム1は、特定言語ごとの意味解析処理の結果を基にスコアリング等の処理を行うが、この点は後述する。
情報処理システム1は、全ての言語(特定言語)がロースコアであると判定した場合、後編集に関する処理を行う。例えば、情報処理システム1は、全ての第2文字情報の品質が低いと判定した場合、後編集に関する処理を行う。例えば、情報処理システム1は、全ての言語(特定言語)がロースコアであると判定し、ユーザの発話に対する処理について即時性が必要ない場合、翻訳結果を人手で編集させる処理を実行する。情報処理システム1は、クラウドワーカに人手での編集を行わせる。例えば、情報処理システム1は、第1文字情報とその翻訳結果である第2文字情報とをクラウドワーカが利用するデバイス(端末装置10等)に送信することにより、クラウドワーカに翻訳結果を人手で編集させる処理を行わせる。
また、情報処理システム1は、後編集の処理時間が長い(ロングタイム)である場合、処理を棄却する。例えば、情報処理システム1は、クラウドワーカ等による人手での編集が所定の時間内に完了しない場合、処理を棄却する。この場合、情報処理システム1は、「XX言語からYY言語への翻訳時間が長いため、中断します」といった応答生成を行う。例えば、情報処理システム1は、「入力言語のオランダ語から意味解析用の日本語への翻訳時間が長いため、中断します」といった応答生成を行う。
また、情報処理システム1は、後編集の処理時間が短い(ショートタイム)である場合、人手により編集された第2文字情報を用いて正規化判定を行う。情報処理システム1は、正規化の必要があると判定した場合、人手により編集された第2文字情報の正規化(後処理正規化)を行い、正規化された第2文字情報を対象として発話意味解析器により意味解析処理を行う。また、情報処理システム1は、正規化の必要がないと判定した場合、人手により編集された第2文字情報を対象として発話意味解析器により意味解析処理を行う。
上述のように、情報処理システム1は、各特定言語について、発話意味解析器により意味解析処理を行うことにより、特定言語ごとの出力を得る。例えば、情報処理システム1は、各特定言語について意味解析の結果を得る。例えば、情報処理システム1は、意味解析処理により各特定言語の意味フレームの情報を生成する。例えば、情報処理システム1は、意味解析処理により、ユーザの発話に対応するDomain−Goal(ドメインゴール)が特定され、スロット値が設定された意味フレームの情報を生成する。
そして、情報処理システム1は、各特定言語のスコアリングを行う。情報処理システム1は、各特定言語の意味解析の精度を示すスコア(意味解析スコア)を算出する。情報処理システム1は、意味解析処理において特定したドメインゴールの確信度(精度)を示す意味解析スコアを算出する。情報処理システム1は、種々の技術を適宜用いて、意味解析スコアを算出する。
そして、情報処理システム1は、特定言語の選択を行う。例えば、情報処理システム1は、発話意味解析処理が行われた言語(特定言語)が複数ある場合、その後の処理に用いる特定言語を選択する。なお、情報処理システム1は、発話意味解析処理が行われた言語(特定言語)が1つである場合、その言語をその後の処理に用いる特定言語として選択する。
そして、情報処理システム1は、知識DBを用いてスロット逆変換を行う。情報処理システム1は、逆翻訳または多言語辞書を利用してスロット逆変換を行う。例えば、情報処理システム1は、外部の知識情報提供サーバや知識情報記憶部125等の知識DBを用いてスロット逆変換を行う。例えば、情報処理システム1は、意味フレーム中の特定言語(第2言語)のスロット値を入力言語(第1言語)のスロット値に逆変換する。なお、情報処理システム1は、第1言語が特定言語である場合など、逆変換が不要の場合はスロット逆変換の処理を行わなくてもよい。
そして、情報処理システム1は、応答生成を行う。情報処理システム1は、意味解析処理の結果に対応する情報の生成を行う。情報処理システム1は、意味フレームのDomain−Goal(ドメインゴール)やスロット値の情報を基に、応答する情報の生成を行う。
[1−9.処理の詳細等]
ここから、図13〜図15等で説明した各種処理の詳細について説明する。
[1−9−1.言語識別]
まず、上述した言語識別について記載する。言語識別とは、複数の入力言語を想定し、自動的に発話者の言語を特定する公知の技術であり、近年では音声認識処理と同時に用いられることが多い。また、言語識別は、音声認識の音響モデルから判断する場合と、言語モデルから判断する場合に大きく分かれる。前者は言語識別にかかる時間(遅延)を少なくすることができる点が利点であり、後者はより正確な言語識別が可能となり、遅延と精度のトレードオフの関係である。情報処理システム1は、音声認識の音響モデルから判断する処理と、言語モデルから判断する処理とのいずれにより、言語識別を行ってもよい。
また、入力言語が翻訳器の対応外の言語や、意味解析器の特定言語外の場合、処理を中断し、応答に中断理由を含める。例えば、情報処理システム1は、「ZZ言語は翻訳および意味解析で対応しておりません」などと言った出力を行う。
[1−9−2.前処理正規化]
次に、前処理正規化について記載する。上述したように、翻訳処理(翻訳器)と意味解析処理(意味解析器)の想定する発話表現が違うためギャップがある。スマートスピーカのようなデバイスに操作を依頼するケースが想定され、ユーザが発話する表現は、発話意味解析器の想定する発話表現となり、その表現が翻訳器に入力されることが想定される。そのため、翻訳処理(翻訳器)が想定しない表現となるため、十分な精度を保つことができない可能性がある。そこで、情報処理システム1は、翻訳器が想定している表現に前処理として正規化する。例えば、「音楽をかけて」を「音楽を再生してください」のように、話し言葉の発話依頼調の表現から、書き言葉の文語体に変換する。例えば、情報処理システム1は、図9に示すように正規化判定モジュール(正規化判定モデルMD1)に通して、正規化判定モデルMD1が出力する変換フラグ0(発話調)の場合に、前処理正規化を実行してもよい。
[1−9−3.複数言語への翻訳および意味解析処理へ拡張]
次に、複数言語への翻訳および意味解析処理へ拡張について、図16を用いて説明する。図16は、意味解析に関するスコアの一例を示す図である。図1の例では、言語間対応表から特定言語を選択していたが、全ての特定言語(例えば、N言語数)を対象に処理を行ってもよい。この場合、情報処理システム1は、選択することなく、全ての特定言語(N言語数)に翻訳し、N言語数すべてに対して、意味解析処理を実行する。
この場合、意味解析の結果はN言語数あるため、情報処理システム1は、N言語数の中から一つの言語を選択する。例えば、情報処理システム1は、言語ごとの意味解析結果のスコアから最大のスコアの言語を選択する。図16の例では、スコア一覧SC1に示すように、ドイツ語の意味解析スコア「0.90」が最大であるため、情報処理システム1は、ドイツ語を特定言語として選択する。
[1−9−4.品質推定]
次に、品質推定について、図17を用いて説明する。図17は、翻訳品質に関するスコアの一例を示す図である。品質推定は、翻訳器の出力がどの程度の精度であるかを推定する処理(モジュール)である。精度が低い場合、意味解析処理しても所望の結果を得ることが難しく、意味解析が別のドメインゴールを推定することによる、ユーザにとって不利益になることを避けるために、翻訳結果の段階で処理を中止させるためのものである。つまり、情報処理システム1は、品質推定のスコア値(品質スコア)が一定以上高いもの、通常の意味解析処理を行い、一定以下のものは処理を中断して、中断理由を応答に含める。図17の例では、スコア一覧SC2に示すように、情報処理システム1は、閾値「0.75」以上の言語である英語、フランス語及びドイツ語の3つの言語は、通常の意味解析処理を行い、その他の言語は処理を中断して、中断理由を応答に含める。
例えば、テキスト表示や音声応答の場合、情報処理システム1は、「オランダ語から日本語への翻訳精度が低いため、処理を中断します」などの出力を行う。これにより、ユーザは、どの言語が翻訳処理を正常にできなかったことがわかる。なお、情報処理システム1は、エラー音や、識別可能な色をデバイスで表示するなど、ユーザが認知可能であれば、種々の表現形式により出力(通知)を行ってもよい。
また、情報処理システム1は、品質推定と、上述した複数言語への翻訳および意味解析処理へ拡張とを組み合わせてもよい。例えば、情報処理システム1は、すべての特定言語ごとに品質推定のスコア値(品質スコア)を算出し、どれか一つでも一定以上の値なら、一定以上の特定言語すべて意味解析処理を実行する。一方、情報処理システム1は、すべての特定言語が一定以下の値(品質スコア)である場合は、処理を中断して中断理由を応答に含める。例えば、情報処理システム1は、「処理可能な言語へ翻訳ですべて精度が低いため、処理を中断します」などの出力を行う。
[1−9−5.クラウドワーカ]
次に、クラウドワーカについて説明する。品質推定追加の延長として、情報処理システム1は、すべての特定言語の翻訳結果が一定以下の場合、クラウドワーカ(翻訳編集者)により、人手による翻訳結果を修正する処理(後編集)を行わせることも可能である。ただし、人手編集のため、処理時間がかかるため、この処理は即時性が要求されない用途を想定される。そのため、一定以上の時間を経過しても処理が終わらない場合は、情報処理システム1は、処理を中断して応答に中断理由を含める。例えば、情報処理システム1は、「ヒンディー語から日本語への人手翻訳の時間が長いため、中断します」などの出力を行う。また、情報処理システム1は、ドメインゴールによって、一定以上の時間を調整してもよい。
[1−9−6.翻訳精度・時間の調整]
情報処理システム1は、閾値等の種々の値を変更してもよい。例えば、情報処理システム1は、一定以上の翻訳精度や待ち時間を、システムのデフォルト値以外に、ユーザが自由に設定させてもよい。ユーザによっては品質が高いものだけを得たい場合は精度の閾値は高く設定し、時間がかかっても結果が欲しい場合は、待ち時間を長く設定することで、自由にカスタイマイズすることが可能であり、ユーザごとに最適化することが可能となる。
[1−10.実験結果(ドメインゴール判定例)]
次に、図20を用いて実験結果について説明する。図20は、ドメインゴール判定の結果の一例を示す図である。
縦軸方向の精度は、入力に対して正しくドメインゴールが判定された割合を示す。また横軸方向の「Weather」、「Music」、「Device」は、それぞれ対象となるドメインゴールを示す。例えば、「Weather」は、天気に関するドメインゴールを示す。また、「Music」は、音楽に関するドメインゴールを示す。「Device」は、機器調整に関するドメインゴールを示す。
「Weather」、「Music」、「Device」の各々の左端の縦バーは、ある言語(言語X)を第1言語とした場合に、各ドメインゴールとして正しく判定された割合(精度)を示す。すなわち、結果RS1に対応するハッチングで示す縦バーは、ある言語(言語X)を第1言語とした場合に、各ドメインゴールとして正しく判定された割合(精度)を示す。図20に示す結果では、ある言語(言語X)を第1言語とした場合、3つとも精度が0.90以上となる。
また、「Weather」、「Music」、「Device」の各々の中央の縦バーは、ある言語(言語X)を第2言語とし、翻訳のみを行った場合に、各ドメインゴールとして正しく判定された割合(精度)を示す。すなわち、結果RS2に対応するハッチングで示す縦バーは、ある言語(言語X)を第2言語とし、翻訳のみを行った場合に、各ドメインゴールとして正しく判定された割合(精度)を示す。例えば、「Weather」、「Music」、「Device」の各々の中央の縦バーは、他の言語(言語Y)から言語Xに翻訳された場合に、各ドメインゴールとして正しく判定された割合(精度)を示す。図20に示す結果では、ある言語(言語X)を第2言語として翻訳のみを行った場合、3つとも精度が0.90未満となる。
また、「Weather」、「Music」、「Device」の各々の右の縦バーは、ある言語(言語X)を第2言語とし、翻訳に加えて上述した正規化処理を行った場合に、各ドメインゴールとして正しく判定された割合(精度)を示す。すなわち、結果RS3に対応するハッチングで示す縦バーは、ある言語(言語X)を第2言語とし、翻訳に加えて上述した正規化処理を行った場合に、各ドメインゴールとして正しく判定された割合(精度)を示す。例えば、「Weather」、「Music」、「Device」の各々の中央の縦バーは、他の言語(言語Y)から言語Xに翻訳され、正規化処理を行われた場合に、各ドメインゴールとして正しく判定された割合(精度)を示す。図20に示す結果では、ある言語(言語X)を第2言語とし、翻訳に加えて上述した正規化処理を行った場合、3つとも精度が0.90以上となる。このように、翻訳に加えて上述した正規化処理を行うことである言語(言語X)を第1言語とした場合と同等の精度を実現することができる。
[2.その他の実施形態]
上述した各実施形態に係る処理は、上記各実施形態や変形例以外にも種々の異なる形態(変形例)にて実施されてよい。
[2−1.クライアント側で意味解析処理等を行う構成例]
実施形態においては、システム構成の一例として、情報処理装置100が変換処理や意味解析処や逆変換理等を行う場合を示したが、端末装置10が変換処理や意味解析処や逆変換理等を行ってもよい。すなわち、クライアント側の装置である端末装置10が上述した変換処理や意味解析処や逆変換理等を行う情報処理装置であってもよい。このように、情報処理システム1のシステム構成は、サーバ側の装置である情報処理装置100が変換処理や意味解析処や逆変換理等を行う構成に限らず、クライアント側の装置である端末装置10が上述した変換処理や意味解析処や逆変換理等を行う構成であってもよい。
端末装置10が上述した変換処理や意味解析処や逆変換理等を行う情報処理装置である場合、情報処理システム1では、クライアント側(端末装置10)で翻訳や意味解析や逆変換を行う。そして、サーバ側(情報処理装置100)は、その意味解析結果や逆変換結果の情報を端末装置10から取得して、各種の処理を行う。この場合、端末装置10の実行部152は、情報処理装置100の実行部133と同様の機能を有してもよい。また、端末装置10は、上述した変換部132と同様の機能を実現する変換部や、逆変換部134と同様の機能を実現する逆変換部を有してもよい。また、この場合、情報処理装置100は、変換部132や逆変換部134を有しなくてもよい。
また、情報処理システム1は、クライアント側(端末装置10)で発話の意味解析までを行い、サーバ側(情報処理装置100)で逆変換を行うシステム構成であってもよい。この場合、クライアント側の装置である端末装置10が上述した変換処理や意味解析処理を行う情報処理装置であり、サーバ側の装置である情報処理装置100が上述した逆変換処理を行う情報処理装置であってもよい。この場合、端末装置10の変換部や実行部152が変換処理や意味解析処理を行い、情報処理装置100の逆変換部134が逆変換処理を行う。
なお、上記は一例であり、情報処理システム1においては、各処理をいずれの装置が行ってもよい。このように、情報処理システム1は、各処理について、クライアント側の装置(端末装置10)及びサーバ側の装置(情報処理装置100)のいずれが行うシステム構成であってもよい。
[2−2.その他の構成例]
なお、上記の例では、情報処理装置100と端末装置10とが別体である場合を示したが、これらの装置は一体であってもよい。
[2−3.その他]
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
[3.本開示に係る効果]
上述のように、本開示に係る情報処理装置(実施形態では情報処理装置100)は、変換部(実施形態では変換部132)と、実行部(実施形態では実行部133)とを備える。変換部は、第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換する。実行部は、意味解析が処理に対応する形式に1以上の第2文字情報を正規化し、正規化された1以上の第2文字情報を用いて、意味解析処理を実行する。
このように、本開示に係る情報処理装置は、第1言語の第1文字情報を、意味解析処理が実行可能な第2言語の第2文字情報に変換し、正規化された第2文字情報を用いて意味解析処理を実行することで、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、本開示に係る情報処理装置は、逆変換部(実施形態では逆変換部134)を備える。逆変換部は、1以上の第2言語の各々に対応する意味解析処理の結果を第1言語に変換する。このように、情報処理装置は、意味解析処理の結果を第1言語に変換することで、意味解析処理が実行できる言語を介して意味解析をした後に元の言語(第1言語)に再度変換することで、意味解析処理が実行できない言語についても意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、逆変換部は、意味解析処理の結果のうち一部を第1言語に変換する。このように、情報処理装置は、意味解析処理の結果のうち一部を第1言語に変換することで、必要な情報のみを元の言語(第1言語)に再度変換して、意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、逆変換部は、意味解析処理の結果のうちスロット値を第1言語に変換する。このように、情報処理装置は、意味解析処理の結果のうちスロット値を第1言語に変換することで、処理を行うために元の言語(第1言語)で必要な情報(スロット値)のみを元の言語(第1言語)に再度変換して、意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、変換部は、第1文字情報を、一の第2言語に対応する一の第2文字情報に変換する。実行部は、一の第2文字情報に対して意味解析処理を実行する。逆変換部は、一の第2言語に対する意味解析処理の結果を第1言語に変換する。このように、情報処理装置は、一の第2言語を対象として処理をすることにより、意味解析処理が実行できない言語についても効率的に意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、変換部は、複数の第2言語のうち所定の基準に基づいて選択された一の第2言語に対応する一の第2文字情報に、第1文字情報を変換する。このように、情報処理装置は、複数の第2言語のうち所定の基準に基づいて一の第2言語を選択することで、意味解析処理が実行できない言語についても効率的に意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、変換部は、変換に関する言語の対応付けを示す言語間対応表を用いて、第1言語に対応付けられた第2言語を、一の第2言語として第1文字情報を変換する。このように、情報処理装置は、変換に関する言語の対応付けを示す言語間対応表を用いて、第1言語に対応付けられた第2言語に変換することで、意味解析処理が実行できない言語についても効率的に意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、変換部は、第1文字情報を、複数の第2言語の各々に対応する複数の第2文字情報に変換する。実行部は、複数の第2文字情報を用いて、意味解析処理を実行する。逆変換部は、複数の第2言語のうち、所定の条件を満たす第2言語に対する意味解析処理の結果を第1言語に変換する。このように、情報処理装置は、複数の第2言語を対象として処理をすることにより、例えば翻訳や意味解析の品質が高い第2言語を選択することができ、意味解析処理が実行できない言語についても精度の良い意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、逆変換部は、複数の第2言語のうち、意味解析処理のスコアが所定の閾値以上である第2言語に対する意味解析処理の結果を第1言語に変換する。このように、情報処理装置は、意味解析処理のスコアが所定の閾値以上の第2言語を対象とすることで、意味解析処理が実行できない言語についても精度の良い意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、逆変換部は、複数の第2言語の全てに対する意味解析処理の結果を第1言語に変換する。このように、情報処理装置は、複数の第2言語の全てを対象として逆変換を行い、その結果を用いることで、意味解析処理が実行できない言語についても精度の良い意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、実行部は、1以上の第2文字情報のうち正規化が不要と判定された第2文字情報に対して、正規化無しで意味解析処理を実行する。このように、情報処理装置は、正規化が不要な第2文字情報については、正規化をせずに利用することで、より効率的に処理を行うことができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、変換部は、第1言語によるユーザの発話情報が正規化された第1文字情報を、1以上の第2文字情報に変換する。このように、情報処理装置は、正規化された文字情報を翻訳することにより、より適切な翻訳結果を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、変換部は、発話情報に対する正規化が不要と判定された場合、発話情報を第1文字情報として、1以上の第2文字情報に変換する。このように、情報処理装置は、正規化が不要な発話については、正規化をせずに利用することで、より効率的に処理を行うことができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、実行部は、1以上の第2文字情報の品質が低い場合、1以上の第2文字情報を用いた意味解析処理を実行しない。このように、情報処理装置は、品質が低い場合、1以上の第2文字情報を用いた意味解析処理を実行しないことで、品質の低い結果を用いることを抑制することができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関するサービスの向上を可能にすることができる。
また、実行部は、1以上の第2文字情報の品質を示す品質スコアが品質閾値より低い場合、1以上の第2文字情報を用いた意味解析処理を実行しない。このように、情報処理装置は、1以上の第2文字情報の品質を示す品質スコアが品質閾値より低い場合、1以上の第2文字情報を用いた意味解析処理を実行しないことで、品質の低い結果を用いることを抑制することができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関するサービスの向上を可能にすることができる。
また、実行部は、人による後編集が所定の時間内に完了する場合、後編集により生成された第2文字情報を用いて、意味解析処理を実行する。このように、情報処理装置は、自装置による品質が低い場合であっても、人による処理が時間内に終わる場合は人による後編集の情報を用いることで、品質の低い結果を用いることを抑制しつつ、処理を可能にすることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。
また、実行部は、人による後編集が所定の時間内に完了しない場合、処理中断に関する処理を実行する。このように、情報処理装置は、自装置による品質が低く、人による処理も時間内に終わらない場合は、処理中断に関する処理を実行することで、品質の低い結果を用いることや、タイミングを逃したサービスを提供することを抑制することができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関するサービスの向上を可能にすることができる。
また、実行部は、処理中断を行うことを通知する処理を実行する。このように、情報処理装置は、処理中断を行うことを通知することで、処理を中断することをユーザなどに認識させることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関するサービスの向上を可能にすることができる。
また、実行部は、第1言語が意味解析処理を実行可能である場合、第1文字情報に対して意味解析処理を実行する。このように、情報処理装置は、第1言語が意味解析処理を実行可能である場合は、そのまま意味解析を行うことで、より効率的に処理を行うことができる。
[4.ハードウェア構成]
上述してきた各実施形態や変形例に係る情報処理装置100や端末装置10等の情報機器は、例えば図21に示すような構成のコンピュータ1000によって実現される。図21は、情報処理装置100や端末装置10等の情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。例えば、コンピュータ1000が実施形態に係る情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換する変換部と、
意味解析が処理に対応する形式に前記1以上の第2文字情報を正規化し、正規化された前記1以上の第2文字情報を用いて、前記意味解析処理を実行する実行部と、
を備える情報処理装置。
(2)
前記1以上の第2言語の各々に対応する前記意味解析処理の結果を前記第1言語に変換する逆変換部、
をさらに備える(1)に記載の情報処理装置。
(3)
前記逆変換部は、
前記意味解析処理の前記結果のうち一部を前記第1言語に変換する、
(2)に記載の情報処理装置。
(4)
前記逆変換部は、
前記意味解析処理の前記結果のうちスロット値を前記第1言語に変換する、
(2)または(3)に記載の情報処理装置。
(5)
前記変換部は、
前記第1文字情報を、一の第2言語に対応する一の第2文字情報に変換し、
前記実行部は、
前記一の第2文字情報に対して前記意味解析処理を実行し、
前記逆変換部は、
前記一の第2言語に対する前記意味解析処理の結果を前記第1言語に変換する、
(2)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記変換部は、
複数の第2言語のうち所定の基準に基づいて選択された前記一の第2言語に対応する前記一の第2文字情報に、前記第1文字情報を変換する、
(5)に記載の情報処理装置。
(7)
前記変換部は、
変換に関する言語の対応付けを示す言語間対応表を用いて、前記第1言語に対応付けられた第2言語を、前記一の第2言語として前記第1文字情報を変換する、
(5)または(6)に記載の情報処理装置。
(8)
前記変換部は、
前記第1文字情報を、複数の第2言語の各々に対応する複数の第2文字情報に変換し、
前記実行部は、
前記複数の第2文字情報を用いて、前記意味解析処理を実行し、
前記逆変換部は、
前記複数の第2言語のうち、所定の条件を満たす第2言語に対する前記意味解析処理の結果を前記第1言語に変換する、
(2)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記逆変換部は、
前記複数の第2言語のうち、前記意味解析処理のスコアが所定の閾値以上である第2言語に対する前記意味解析処理の結果を前記第1言語に変換する、
(8)に記載の情報処理装置。
(10)
前記逆変換部は、
前記複数の第2言語の全てに対する前記意味解析処理の結果を前記第1言語に変換する、
(8)に記載の情報処理装置。
(11)
前記実行部は、
前記1以上の第2文字情報のうち正規化が不要と判定された第2文字情報に対して、正規化無しで前記意味解析処理を実行する、
(1)〜(10)のいずれか1項に記載の情報処理装置。
(12)
前記変換部は、
前記第1言語によるユーザの発話情報が正規化された前記第1文字情報を、前記1以上の第2文字情報に変換する、
(1)〜(10)のいずれか1項に記載の情報処理装置。
(13)
前記変換部は、
前記発話情報に対する正規化が不要と判定された場合、前記発話情報を前記第1文字情報として、前記1以上の第2文字情報に変換する、
(12)に記載の情報処理装置。
(14)
前記実行部は、
前記1以上の第2文字情報の品質が低い場合、前記1以上の第2文字情報を用いた前記意味解析処理を実行しない、
(1)〜(13)のいずれか1項に記載の情報処理装置。
(15)
前記実行部は、
前記1以上の第2文字情報の品質を示す品質スコアが品質閾値より低い場合、前記1以上の第2文字情報を用いた前記意味解析処理を実行しない、
(14)に記載の情報処理装置。
(16)
前記実行部は、
人による後編集が所定の時間内に完了する場合、前記後編集により生成された第2文字情報を用いて、前記意味解析処理を実行する、
(14)または(15)に記載の情報処理装置。
(17)
前記実行部は、
人による後編集が所定の時間内に完了しない場合、処理中断に関する処理を実行する、
(14)〜(16)のいずれか1項に記載の情報処理装置。
(18)
前記実行部は、
前記処理中断を行うことを通知する処理を実行する、
(17)に記載の情報処理装置。
(19)
前記実行部は、
前記第1言語が前記意味解析処理を実行可能である場合、前記第1文字情報に対して前記意味解析処理を実行する、
(1)〜(18)のいずれか1項に記載の情報処理装置。
(20)
第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換し、
意味解析が処理に対応する形式に前記1以上の第2文字情報を正規化し、正規化された前記1以上の第2文字情報を用いて、前記意味解析処理を実行する、
処理を実行する情報処理方法。
1 情報処理システム
100 情報処理装置
110 通信部
120 記憶部
121 言語情報記憶部
122 意味フレーム情報記憶部
123 言語間対応表情報記憶部
124 閾値情報記憶部
125 知識情報記憶部
130 制御部
131 取得部
132 変換部
133 実行部
134 逆変換部
135 生成部
136 送信部
10 端末装置
11 通信部
12 入力部
13 出力部
14 記憶部
15 制御部
151 受信部
152 実行部
153 受付部
154 送信部
16 センサ部
17 表示部

Claims (20)

  1. 第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換する変換部と、
    意味解析が処理に対応する形式に前記1以上の第2文字情報を正規化し、正規化された前記1以上の第2文字情報を用いて、前記意味解析処理を実行する実行部と、
    を備える情報処理装置。
  2. 前記1以上の第2言語の各々に対応する前記意味解析処理の結果を前記第1言語に変換する逆変換部、
    をさらに備える請求項1に記載の情報処理装置。
  3. 前記逆変換部は、
    前記意味解析処理の前記結果のうち一部を前記第1言語に変換する、
    請求項2に記載の情報処理装置。
  4. 前記逆変換部は、
    前記意味解析処理の前記結果のうちスロット値を前記第1言語に変換する、
    請求項2に記載の情報処理装置。
  5. 前記変換部は、
    前記第1文字情報を、一の第2言語に対応する一の第2文字情報に変換し、
    前記実行部は、
    前記一の第2文字情報に対して前記意味解析処理を実行し、
    前記逆変換部は、
    前記一の第2言語に対する前記意味解析処理の結果を前記第1言語に変換する、
    請求項2に記載の情報処理装置。
  6. 前記変換部は、
    複数の第2言語のうち所定の基準に基づいて選択された前記一の第2言語に対応する前記一の第2文字情報に、前記第1文字情報を変換する、
    請求項5に記載の情報処理装置。
  7. 前記変換部は、
    変換に関する言語の対応付けを示す言語間対応表を用いて、前記第1言語に対応付けられた第2言語を、前記一の第2言語として前記第1文字情報を変換する、
    請求項5に記載の情報処理装置。
  8. 前記変換部は、
    前記第1文字情報を、複数の第2言語の各々に対応する複数の第2文字情報に変換し、
    前記実行部は、
    前記複数の第2文字情報を用いて、前記意味解析処理を実行し、
    前記逆変換部は、
    前記複数の第2言語のうち、所定の条件を満たす第2言語に対する前記意味解析処理の結果を前記第1言語に変換する、
    請求項2に記載の情報処理装置。
  9. 前記逆変換部は、
    前記複数の第2言語のうち、前記意味解析処理のスコアが所定の閾値以上である第2言語に対する前記意味解析処理の結果を前記第1言語に変換する、
    請求項8に記載の情報処理装置。
  10. 前記逆変換部は、
    前記複数の第2言語の全てに対する前記意味解析処理の結果を前記第1言語に変換する、
    請求項8に記載の情報処理装置。
  11. 前記実行部は、
    前記1以上の第2文字情報のうち正規化が不要と判定された第2文字情報に対して、正規化無しで前記意味解析処理を実行する、
    請求項1に記載の情報処理装置。
  12. 前記変換部は、
    前記第1言語によるユーザの発話情報が正規化された前記第1文字情報を、前記1以上の第2文字情報に変換する、
    請求項1に記載の情報処理装置。
  13. 前記変換部は、
    前記発話情報に対する正規化が不要と判定された場合、前記発話情報を前記第1文字情報として、前記1以上の第2文字情報に変換する、
    請求項12に記載の情報処理装置。
  14. 前記実行部は、
    前記1以上の第2文字情報の品質が低い場合、前記1以上の第2文字情報を用いた前記意味解析処理を実行しない、
    請求項1に記載の情報処理装置。
  15. 前記実行部は、
    前記1以上の第2文字情報の品質を示す品質スコアが品質閾値より低い場合、前記1以上の第2文字情報を用いた前記意味解析処理を実行しない、
    請求項14に記載の情報処理装置。
  16. 前記実行部は、
    人による後編集が所定の時間内に完了する場合、前記後編集により生成された第2文字情報を用いて、前記意味解析処理を実行する、
    請求項14に記載の情報処理装置。
  17. 前記実行部は、
    人による後編集が所定の時間内に完了しない場合、処理中断に関する処理を実行する、
    請求項14に記載の情報処理装置。
  18. 前記実行部は、
    前記処理中断を行うことを通知する処理を実行する、
    請求項17に記載の情報処理装置。
  19. 前記実行部は、
    前記第1言語が前記意味解析処理を実行可能である場合、前記第1文字情報に対して前記意味解析処理を実行する、
    請求項1に記載の情報処理装置。
  20. 第1言語によるユーザの発話に対応する第1文字情報を、意味解析処理が実行可能な1以上の第2言語の各々に対応する1以上の第2文字情報に変換し、
    意味解析が処理に対応する形式に前記1以上の第2文字情報を正規化し、正規化された前記1以上の第2文字情報を用いて、前記意味解析処理を実行する、
    処理を実行する情報処理方法。
JP2020023777A 2020-02-14 2020-02-14 情報処理装置及び情報処理方法 Pending JP2021128632A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020023777A JP2021128632A (ja) 2020-02-14 2020-02-14 情報処理装置及び情報処理方法
PCT/JP2021/003778 WO2021161856A1 (ja) 2020-02-14 2021-02-02 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020023777A JP2021128632A (ja) 2020-02-14 2020-02-14 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2021128632A true JP2021128632A (ja) 2021-09-02

Family

ID=77291825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020023777A Pending JP2021128632A (ja) 2020-02-14 2020-02-14 情報処理装置及び情報処理方法

Country Status (2)

Country Link
JP (1) JP2021128632A (ja)
WO (1) WO2021161856A1 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090727B (zh) * 2019-12-06 2022-07-08 思必驰科技股份有限公司 语言转换处理方法、装置及方言语音交互系统

Also Published As

Publication number Publication date
WO2021161856A1 (ja) 2021-08-19

Similar Documents

Publication Publication Date Title
US9805718B2 (en) Clarifying natural language input using targeted questions
US11915692B2 (en) Facilitating end-to-end communications with automated assistants in multiple languages
US11521600B2 (en) Systems and method to resolve audio-based requests in a networked environment
US20200184158A1 (en) Facilitating communications with automated assistants in multiple languages
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN112466302B (zh) 语音交互的方法、装置、电子设备和存储介质
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
US11907665B2 (en) Method and system for processing user inputs using natural language processing
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备
CN111324626B (zh) 基于语音识别的搜索方法、装置、计算机设备及存储介质
WO2021161856A1 (ja) 情報処理装置及び情報処理方法
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
WO2021161908A1 (ja) 情報処理装置及び情報処理方法
CN111104118A (zh) 一种基于aiml的自然语言指令执行方法及系统
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
US11798542B1 (en) Systems and methods for integrating voice controls into applications
US11984113B2 (en) Method and server for training a neural network to generate a textual output sequence
JP6298806B2 (ja) 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム
JP2023007014A (ja) 応答システム、応答方法、および応答プログラム