JP2021128632A

JP2021128632A - 情報処理装置及び情報処理方法

Info

Publication number: JP2021128632A
Application number: JP2020023777A
Authority: JP
Inventors: 淳也小野; Onojunya
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2021-09-02
Also published as: WO2021161856A1

Abstract

【課題】意味解析処理が実行できない言語に関しても適切な意味解析を可能にする。【解決手段】本開示に係る情報処理装置は、第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換する変換部と、意味解析が処理に対応する形式に前記１以上の第２文字情報を正規化し、正規化された前記１以上の第２文字情報を用いて、前記意味解析処理を実行する実行部と、を備える。【選択図】図１

Description

本開示は、情報処理装置及び情報処理方法に関する。

近年、意味解析や翻訳等の自然言語処理に関する技術が知られている。例えば、意味解析技術を用いて、翻訳元言語文を翻訳先言語に変換する機械翻訳システムが提供されている。

特開２００４−３１８３４４号公報

従来技術によれば、翻訳元言語文を意味解析した結果と、翻訳した翻訳結果文を意味解析した結果とを比較する処理を行う。

しかしながら、従来技術は、意味解析処理が実行できない言語を対象として処理を行うことができない。例えば、従来技術では、翻訳元言語と翻訳先言語との両方が意味解析処理可能であることが必要であり、意味解析処理が実行できない言語に対しては対応できない。また、例えば、翻訳処理を行った後の文を対象として意味解析を行う場合、翻訳により生成される文の形式（例えば文語調）と、意味解析の入力として想定される文の形式（例えば口語調）との相違により意味解析の精度が低下する場合がある。そのため、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることが望まれている。

そこで、本開示では、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる情報処理装置及び情報処理方法を提案する。

上記の課題を解決するために、本開示に係る一形態の情報処理装置は、第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換する変換部と、意味解析が処理に対応する形式に前記１以上の第２文字情報を正規化し、正規化された前記１以上の第２文字情報を用いて、前記意味解析処理を実行する実行部と、を備える。

本開示の実施形態に係る情報処理の一例を示す図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る情報処理装置の構成例を示す図である。本開示の実施形態に係る言語情報記憶部の一例を示す図である。本開示の実施形態に係る意味フレーム情報記憶部の一例を示す図である。本開示の実施形態に係る言語間対応表情報記憶部の一例を示す図である。本開示の実施形態に係る閾値情報記憶部の一例を示す図である。本開示の実施形態に係る正規化判定の一例を示す図である。正規化判定モデルに対応するネットワークの一例を図である。本開示の実施形態に係る端末装置の構成例を示す図である。本開示の実施形態に係る応答の一例を示す図である。本開示の実施形態に係る情報処理装置の処理を示すフローチャートである。本開示の実施形態に係る情報処理システムの処理を示すフローチャートである。本開示の実施形態に係る情報処理システムの処理を示すフローチャートである。情報処理システムによる処理の一例を示す概念図である。意味解析に関するスコアの一例を示す図である。翻訳品質に関するスコアの一例を示す図である。他の言語を介した翻訳の一例を示す図である。翻訳と意味解析との関係の一例を示す図である。ドメインゴール判定の結果の一例を示す図である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかる情報処理装置及び情報処理方法が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

以下に示す項目順序に従って本開示を説明する。
１．実施形態
１−１．本開示の実施形態に係る情報処理の概要
１−１−１．概要、背景及び効果等
１−１−２．処理の主な流れ
１−２．実施形態に係る情報処理システムの構成
１−３．実施形態に係る情報処理装置の構成
１−４．正規化判定及び正規化処理
１−４−１．後処理正規化
１−４−２．前処理正規化
１−５．実施形態に係る端末装置の構成
１−６．応答例
１−７．実施形態に係る情報処理の手順
１−７−１．情報処理装置に係る処理の手順
１−７−２．情報処理システムに係る処理の手順
１−７−３．情報処理システムに係る処理の他の手順
１−８．情報処理システムによる処理の概念図
１−９．処理の詳細等
１−９−１．言語識別
１−９−２．前処理正規化
１−９−３．複数言語への翻訳および意味解析処理へ拡張
１−９−４．品質推定
１−９−５．クラウドワーカ
１−９−６．翻訳精度・時間の調整
１−１０．実験結果（ドメインゴール判定例）
２．その他の実施形態
２−１．クライアント側で意味解析処理等を行う構成例
２−２．その他の構成例
２−３．その他
３．本開示に係る効果
４．ハードウェア構成

［１．実施形態］
［１−１．本開示の実施形態に係る情報処理の概要］
図１は、本開示の実施形態に係る情報処理の一例を示す図である。本開示の実施形態に係る情報処理は、情報処理装置１００（図３参照）や端末装置１０（図１０参照）を含む情報処理システム１（図２参照）によって実現される。図１では、情報処理システム１によって実現される情報処理の概要を説明する。図１は、本開示の実施形態に係る情報処理の一例を示す図である。

まず、図１の説明に先だって説明に用いる用語について記載する。以下では、言語のうち、意味解析処理が可能な言語を「特定言語」と記載する。また、ユーザの発話に対応する言語（入力言語）を「第１言語」と記載する。例えば、第１言語は、情報処理システム１が入力として受け付ける言語に対応する。また、第１言語の翻訳先となる言語を「第２言語」と記載する。例えば、第２言語は、第１言語の翻訳先となる特定言語に対応する。このように、第１言語及び第２言語は、相対的な概念であって、一の言語が他の言語に対して第１言語となったり、第２言語となったりする。例えば、一の言語がユーザの発話に対応する言語である場合は第１言語となり、その一の言語が他の言語の翻訳先の言語となる場合は第２言語となる。すなわち、ここでいう第１言語や第２言語とは、後述する処理において、各言語の他の言語との関係を基に言語を区別して表現可能にするための名称である。また、以下では、第１言語に対応する文字情報を「第１文字情報」と記載し、第２言語に対応する文字情報を「第２文字情報」と記載する場合がある。また、言語のうち、特定言語以外の言語、すなわち意味解析処理ができない言語を「非特定言語」と記載する場合がある。

処理の前提（背景）等についての詳細は後述するが、図１を説明する前にその処理の前提となる事項を簡単に説明する。情報処理システム１は、多くの言語について音声認識（言語識別）や翻訳処理が可能であり、多くの言語を入力言語（第１言語）として受け付けることができる。例えば、情報処理システム１は、図１に示すように英語、中国語、ヒンディー語、スペイン語、フランス語、アラビア語、ポルトガル語、ベンガル語、ドイツ語、日本語、韓国語等の数多くの言語を入力言語（第１言語）として受け付けることができる。なお、これらの言語は一例に過ぎず、情報処理システム１は、上記の言語に限らず、多数の言語を入力言語（第１言語）として受け付けることができる。

一方で、詳細は後述するが意味解析処理については、翻訳処理等と比べてその処理を実行可能にするまでの負荷が高い。このように、意味解析器を生成するためのコストは、翻訳器を生成するためのコストよりも高い。そのため、意味解析処理を実行可能な言語が限られるため、言語のうち、特定言語に該当する言語は、第１言語となる言語に比べて数が少ない。これにより、情報処理システム１は、多くの言語について音声認識（言語識別）や翻訳処理を実行可能であるが、意味解析処理を実行可能な言語は限られる。

そこで、情報処理システム１は、以下のような処理を行う。図１に示す各処理は、情報処理システム１の情報処理装置１００及び端末装置１０のいずれの装置が行ってもよい。情報処理システム１が処理の主体として記載されている処理については、情報処理システム１に含まれるいずれの装置が行ってもよい。以下では、端末装置１０により検知されたユーザの発話に対して、情報処理装置１００が音声認識や翻訳や意味解析等の処理を実行する場合を一例として説明する。なお、図１では、情報処理装置１００が音声認識や翻訳や意味解析等の処理（情報処理）を行う場合を一例として説明するが、端末装置１０がこれらの処理（情報処理）を行ってもよい。この点については後述する。

ここから、図１について具体的に説明する。まず、ユーザが発話を行う。図１の例では、ユーザが韓国語で発話を行った場合を示す。例えば、ユーザは、「明日の東京の天気を教えて（韓国語）」と韓国語で発話する。このように、「・・・（韓国語）」と記載した場合、記載上は明細書を記載する言語（例えば日本語）であるが、実際は韓国語での発音やハングル文字であるものとする。これにより、情報処理システム１は、ユーザによる韓国語での発話を受け付ける（ステップＳ１）。例えば、情報処理システム１は、入力言語（第１言語）である韓国語の発話の音声情報を取得する。

そして、情報処理システム１は、処理フェーズＦＳ１に示すように、音声認識に関する処理を実行する。情報処理システム１は、ユーザによる発話の音声情報に対する音声認識の処理を行う。例えば、情報処理システム１は、音声認識により入力言語（第１言語）でのユーザによる発話のテキスト（文字情報）を発話情報として取得する。図１の例では、情報処理システム１は、言語識別処理によりユーザの発話が韓国語であると判定する。情報処理システム１は、第１言語である韓国語の文字情報（発話情報）を第１文字情報として用いる。なお、情報処理システム１は、正規化が必要な場合、翻訳前に発話情報に対する正規化（「前処理正規化」ともいう）を行い、正規化された第１文字情報を用いてもよいが、この点については後述する。

そして、情報処理システム１は、ユーザによる発話に対応する第１言語が特定言語かどうかを判定し、第１言語が特定言語ではない場合、特定言語へ変換する。なお、図１での第１言語である韓国語は特定言語でないものとする。情報処理システム１は、言語間対応表を用いて特定言語へ翻訳する。図１の例では、情報処理システム１は、第１言語である韓国語を対応する特定言語（第２言語）である英語に変換する。なお、図１では説明のために、韓国語に対応する特定言語（第２言語）を英語とした場合を示すが、韓国語に対応する特定言語（第２言語）は日本語であってもよい。例えば、韓国語から日本語の翻訳精度は一般的には高いため、通常は韓国語に対応する特定言語（第２言語）は日本語になる場合が多い。例えば、情報処理システム１は、韓国語に対応する第１文字情報「明日の東京の天気を教えて（韓国語）」を、英語に対応する第２文字情報「ＰｌｅａｓｅｔｅｌｌｍｅｔｈｅｗｅａｔｈｅｒｉｎＴｏｋｙｏｔｏｍｏｒｒｏｗ」に変換する。

情報処理システム１は、第１言語である韓国語の第１文字情報を、特定言語である英語の第２文字情報（翻訳テキスト）へ変換する。このように、情報処理システム１は、処理フェーズＦＳ１で第１言語（非特定言語）から第２言語（特定言語）へ変換する処理を実行する。このように、処理フェーズＦＳ１は、入力言語に依存する処理である。

そして、情報処理システム１は、処理フェーズＦＳ２に示すように、意味解析に関する処理を実行する。図１では、情報処理システム１は、意味解析に先立って、特定言語に翻訳された第２文字情報（翻訳テキスト）に対する正規化（「後処理正規化」ともいう）を行う（ステップＳ２）。なお、情報処理システム１は、正規化判定を行い、正規化が必要と判定した場合のみ、第２文字情報の正規化（後処理正規化）を行ってもよいが、この点についての詳細は後述する。

情報処理システム１は、後処理正規化により、意味解析処理に対応する形式に第２文字情報の形式を正規化する。例えば、情報処理システム１は、第２文字情報の形式を口語調に変換（正規化）する処理を実行する。情報処理システム１は、後処理正規化により、正規化された第２文字情報（正規化テキスト）を生成する。例えば、情報処理システム１は、後処理正規化により、正規化された第２文字情報「ＴｅｌｌｍｅｔｈｅｗｅａｔｈｅｒｉｎＴｏｋｙｏｔｏｍｏｒｒｏｗ」を生成する。なお、上記の後処理正規化例は、後処理正規化により文字列の変換が行われることを示すための一例に過ぎず、後処理正規化の詳細は後述する。

そして、情報処理システム１は、発話意味解析処理（「意味解析処理」ともいう）を行う（ステップＳ３）。情報処理システム１は、後処理正規化により正規化された第２文字情報（正規化テキスト）を用いて、意味解析処理を行う。情報処理システム１は、意味解析処理による解析結果として、意味フレームの情報を生成する。図１の例では、情報処理システム１は、意味解析処理により、Ｄｏｍａｉｎ−Ｇｏａｌを「Ｗｅａｔｈｅｒ−Ｃｈｅｃｋ」であると特定する。また、情報処理システム１は、Ｄｏｍａｉｎ−Ｇｏａｌ「Ｗｅａｔｈｅｒ−Ｃｈｅｃｋ」に対応するＡｔｔｒｉｂｕｔｅ「Ｄａｔｅ」のスロット値（「Ｖａｌｕｅ」ともいう）が「ｔｏｍｏｒｒｏｗ」であり、Ａｔｔｒｉｂｕｔｅ「Ｐｌａｃｅ」のスロット値が「Ｔｏｋｙｏ」であると推定する。これにより、情報処理システム１は、Ｄｏｍａｉｎ−Ｇｏａｌが「Ｗｅａｔｈｅｒ−Ｃｈｅｃｋ」であり、Ａｔｔｒｉｂｕｔｅ「Ｄａｔｅ」のスロット値が「ｔｏｍｏｒｒｏｗ」であり、Ａｔｔｒｉｂｕｔｅ「Ｐｌａｃｅ」のスロット値が「Ｔｏｋｙｏ」であることを示す意味フレームの情報を生成する。

情報処理システム１は、特定言語である英語で意味解析処理を実行する。このように、情報処理システム１は、処理フェーズＦＳ２で第２言語（特定言語）により意味解析処理を実行する。このように、処理フェーズＦＳ２は、入力言語に非依存の処理である。

そして、情報処理システム１は、処理フェーズＦＳ３に示すように、応答生成に関する処理を実行する。図１では、情報処理システム１は、応答生成に先立って、スロット逆変換を行う（ステップＳ４）。情報処理システム１は、意味フレーム中のスロット値を入力言語（第１言語）のスロット値に変換する。情報処理システム１は、特定言語（第２言語）のスロット値を入力言語（第１言語）のスロット値に変換する。

図１では、情報処理システム１は、特定言語である英語のスロット値を、入力言語である韓国語のスロット値に変換する。例えば、情報処理システム１は、Ａｔｔｒｉｂｕｔｅ「Ｄａｔｅ」のスロット値を「ｔｏｍｏｒｒｏｗ」から「明日（韓国語）」に変換し、スロット値を英語から韓国語に変換する。例えば、情報処理システム１は、Ａｔｔｒｉｂｕｔｅ「Ｐｌａｃｅ」のスロット値を「Ｔｏｋｙｏ」から「東京（韓国語）」に変換し、スロット値を英語から韓国語に変換する。

そして、情報処理システム１は、開始するサービスを決定する（ステップＳ５）。例えば、情報処理システム１は、カレンダーサービスＳＶ１、天気サービスＳＶ２、アラームサービスＳＶ３、音楽サービスＳＶ４等の種々のサービスから、開始するサービスを決定する。図１では、情報処理システム１は、ユーザが天気を尋ねているため、天気サービスＳＶ２を開始するサービスに決定する。そして、情報処理システム１は、応答を生成する。例えば、情報処理システム１は、明日の東京の天気を示す情報を韓国語で出力する。例えば、情報処理システム１は、「明日の東京の天気は晴れです（韓国語）」といった応答を、韓国語で音声により出力したり、韓国語で表示したりする。このように、処理フェーズＦＳ３は、入力言語に依存する処理である。

上述したように、図１では、情報処理システム１は、意味解析処理が実行できない韓国語が入力言語（第１言語）である場合、その言語を特定言語（第２言語）である英語に変換し、変換した変換後の第２言語の情報を対象に意味解析を実行する。このように、情報処理システム１は、意味解析処理が実行できない言語が入力言語（第１言語）である場合、その言語を特定言語（第２言語）に変換し、変換した変換後の第２言語の情報を対象に意味解析を実行する。これにより、情報処理システム１は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

［１−１−１．概要、背景及び効果等］
上述のように、情報処理システム１は、例えばスマートスピーカなどのデバイスに対し、ユーザの発話を受け付け、発話内容から意味フレームのテーブル構造を生成し、発話のドメインゴールを分類（特定）し、スロットを取り出す。これにより、情報処理システム１は、アプリやサービスと連携可能な意味解析処理における多言語展開を用意にするための仕組みを提供する。

情報処理システム１により実行される手法は、図１に示すように、多言語の発話を入力可能とし、解析可能な特定の言語に変換する。例えば、情報処理システム１は、テキストからテキストへ翻訳する翻訳エンジンを利用し、翻訳器の出力を意味解析器が想定する入力表現に正規化する後処理正規化の処理後、特定言語の意味解析を実行した後、スロット値を入力の言語に逆変換する。これにより、情報処理システム１は、多様な言語種の入力であっても言語変換器が対応していれば、対応言語数が少ない特定言語の意味解析で処理が可能となる。このように、情報処理システム１は、翻訳器や多言語辞書を利用して発話文およびスロット値を言語変換すること、翻訳器と意味解析器が想定している発話スタイルのギャップを埋めるための後処理正規化処理を行うことができる。

意味解析処理（意味解析器等）を作成するためには、ドメインゴールに応じた発話文を収集する必要があり、そこから、スロットとして切り出すためのラベリングを行う必要がある。そのために、対象言語を理解しドメインゴールの基準設計や、コーパスを収集しラベリングにかかるコストの面で、一つの言語へローカライズしていくのは、対訳収集が主なコストとなる機械翻訳と比べて負荷が高く、意味解析の多言語展開には時間と人手コストが一般的には必要とされる。グローバルに事業を展開していく際に、ローカライズゼーションは避けては通れない課題である。

一方、情報処理システム１は以下のような技術的な特徴を有する。情報処理システム１は、翻訳技術を利用することで、意味解析の多言語化を実現する。また、情報処理システム１は、翻訳器が対応する多言語の発話を入力可能とし、意味解析が可能な特定言語に変換する。また、情報処理システム１は、特定言語に変換した発話テキストを、意味解析器が想定する話し言葉（口語体）の発話調（「口語調」ともいう）に変換する。情報処理システム１は、特定言語かつ、発話調に変換したテキストから、意味解析の結果である意味フレームを生成する。また、情報処理システム１は、意味フレーム内のスロット値および応答生成の結果を、入力言語またはアプリケーションやサービスが処理可能な言語に変換する。

また、情報処理システム１は、口語表現の発話調に変換したかをユーザが認識可能な出力を行う。例えば、情報処理システム１は、正規化判定モジュール（「正規化判定モデル」ともいう）を通すことで、０なら変換なし、１なら変換ありを出力する。情報処理システム１は、応答の際には入力時、解析時、出力時の３フェーズにて、どの言語かわかる形式で出力する。例えば、情報処理システム１は、画像（アイコンなど）、音声（効果音など）、テキスト（言語名／言語コード）等の形式で出力する。なお、この点についての詳細は後述する。

また、情報処理システム１は、非対応言語、翻訳精度、意味解析精度が一定以下の場合は処理を中断し、その中断理由を提示する。精度が低い状態でアプリケーションやサービスを実行してもユーザが期待する結果にならないことが多い。そのため、情報処理システム１は、ユーザに翻訳処理が上手くできなかったのか、翻訳は成功したが意味解析処理が上手くできなかったのかを伝えることで、ユーザ側が次に入力する際に調整（制御）することを可能にする。

ここで、図１８を用いて従来の翻訳の一例について簡単に説明する。図１８は、他の言語を介した翻訳の一例を示す図である。図１８は、多言語化における特定言語経由の方法の一例を示す。

翻訳技術において、翻訳のモデルを訓練するためには、大量の対訳文の組が必要とされ、特にマイナー言語Ａからマイナー言語Ｂへの翻訳の際は特にコーパスの収集が困難になり、翻訳エンジンの実現が難しくなる。なお、ここでいうマイナー言語とは、例えば情報処理システム１の提供元の属する国において、十分な量のデータを収集することが難しい言語を意味する。一方、メジャー言語とは、例えば情報処理システム１の提供元の属する国において、十分な量のデータを収集することが比較的容易な言語を意味する。例えば、メジャー言語には、情報処理システム１の提供元の属する国で用いられる言語が含まれる。なお、マイナー言語とは、その言語を用いる人（話者）の数が比較的少ない言語であってもよく、メジャー言語とは、その言語を用いる人（話者）の数が比較的多い言語であってもよい。

そこで、図１８のように一度メジャー言語に変換する手法がある。図１８の例では、マイナー言語Ａから、メジャー言語（例えば英語等）に翻訳した後、メジャー言語からマイナー言語Ｂへ２回翻訳する。このように２回翻訳する理由は、以下の２つの点がある。一つ目は、マイナー言語Ａからマイナー言語Ｂへの対訳文の収集・作成に要するコストに比べ、マイナー言語Ａからメジャー言語、及びメジャー言語からマイナー言語Ｂのコストのほうが低いためである。二つ目は、メジャー言語はメジャー言語であるため、マイナー言語Ａからメジャー言語、及びメジャー言語からマイナー言語Ｂの多言語対応としてのニーズがあり、既に対応済みで翻訳可能であることが多く、既存の翻訳器（翻訳処理）をそのまま利用可能（流用可能）である可能性が高いためである。

上述のように、翻訳において特定の言語（例えばメジャー言語）へ翻訳し、更に目的の言語に再翻訳する手法が考えられる。上記は、目的が同じ翻訳器同士を単なる結合（単結合）する場合であり、性質・目的が同じもの同士であるため、上手く機能する可能性が高い。

一方で、図１に示す例での対象は、意味解析器の多言語化・ローカライゼーションに、翻訳器を使用する点である。上述したように、情報処理システム１は、一般的に意味解析器よりも、翻訳器の対応言語の数が圧倒的に多いということを利用することで、特定言語（上記メジャー言語等）のみしか意味解析処理（意味解析器）が対応可能ではない場合であっても、翻訳処理（翻訳器）が対応可能な言語まで見かけ上意味解析処理も対応可能とする。そのために、情報処理システム１は、音声認識後のテキストを特定言語に翻訳する。

しかしながら、翻訳処理（翻訳器）と意味解析処理（意味解析器）とは、性質や目的が違うものであり、単結合では上手く機能しない場合がある。以下に、図１９を参照しつつその理由を従来技術の問題点として記載する。図１９は、翻訳と意味解析との関係の一例を示す図である。

一般的に翻訳器は、書き言葉の文語調の傾向にあり、それは翻訳器が広く使われることを目指し、科学文書、ニュースなどの人が読み・正確に伝わる文として、主語省略がなくあいまい性が少なく、文法として正しいなど、文としての完成度が高いコーパスをベースに学習されることが多い点に起因する。一方で、スマートスピーカやＡＩ（Artificial Intelligence）チャットボットなど、人が機械に依頼するようなスタイル、人と機械がコミュニケーションするスタイルの場合、人と人が会話するような言葉の表現が自然に用いられている。

つまり、以下のような４つの点が、翻訳処理（翻訳器）と意味解析処理（意味解析器）とを単純に結合（単結合）した場合に上手く機能しない原因となり得る。

第１点としては、例えば入力される入力情報が、書き言葉の文語調ではなく、話し言葉の口語調である点が挙げられる。第２点としては、例えば入力される入力情報が、人に依頼する際の発話調である点が挙げられる。第３点としては、表層上の文字列にあいまい性があり、明確に意味を解釈できない点が挙げられる。第４点としては、翻訳結果が「する」、「です」、「します」などの説明調の発話になりやすく、操作依頼を目的とする依頼調と違う点が挙げられる。このような表現は、一般的に用いられる翻訳処理（翻訳器）で適切に対応できていない表現である。ただし、近年の音声翻訳器は話し言葉（口語調）も取り入れている（対応している）場合があり、以下第２点〜第４点への対応が重要になる。

情報処理システム１における意味解析処理（意味解析器）は、操作の依頼や、質問を目的としているため、第２点の依頼調（人に依頼する際の発話の形式）として、以下のような入力が想定される。例えば、「天気を教えて」、「音楽をかけて」などの動詞の活用形の一つ「て形」で終わる形や、「天気はどうかな？」、「オススメの場所はどこ？」など、５Ｗ１Ｈの疑問も多く用いられることが想定される。また、第３点のあいまい性が含まれる発話として、「アーティストＸＸＸかけて」、「タイマーかけて」など、意味解析処理（意味解析器）では想定しているドメインの設計基準から強制的に解釈させること（グラウンディング）により、あいまい性の表現でも強制的に解釈している。また、第４点の説明調の表現に対しても、意味解析処理（意味解析器）は操作依頼として受け付けないケースがある。このように、図１９に示すように、翻訳処理（翻訳器）の出力は、意味解析処理（意味解析器）が想定している入力とはならず、ギャップが存在する。翻訳処理（翻訳器）と意味解析処理（意味解析器）との単結合では、そのギャップにより、機能を実現することが難しい場合がある。

一方で、情報処理システム１は、上述したように、翻訳処理により翻訳された情報（翻訳テキスト）に対して、意味解析処理に対応する形式に変換する正規化を行った上で、意味解析処理を行う。例えば、情報処理システム１は、翻訳処理により第１の形式で翻訳された情報（翻訳テキスト）を、意味解析処理に対応する第２の形式に変換（正規化）した上で、意味解析処理を行う。例えば、情報処理システム１は、翻訳処理により文語調の形式で翻訳された情報（翻訳テキスト）を、口語調に形式を変換（正規化）した上で、意味解析処理を行う。このように、情報処理システム１は、翻訳処理（翻訳器）と意味解析処理（意味解析器）とを単結合した場合に生じ得る上記のギャップを正規化により埋めた上で、処理を実行することができる。これにより、情報処理システム１は、上記のギャップを解消することができる。したがって、情報処理システム１は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

［１−１−２．処理の主な流れ］
以下、処理の主な流れについて簡単に記載する。

情報処理システム１は、発話入力について以下のような処理を行う。情報処理システム１は、音声認識により発話からテキストへ変換する。ここで入力言語は、例えばスペイン語等、情報処理システム１の対応可能な言語として予め決定している。

情報処理システム１は、言語対応表から特定言語翻訳について以下のような処理を行う。情報処理システム１は、情報処理システム１が想定している入力言語から、内部の翻訳処理するための特定言語を言語対応表から参照する。情報処理システム１は、特定言語へ翻訳する。

情報処理システム１は、翻訳結果に対する正規化判定について以下のような処理を行う。情報処理システム１は、翻訳後のテキストに対して、正規化判定モジュール（正規化判定モデル）により、意味解析器の想定入力の表現に変換する必要があるかを判定するが、この点についての詳細は後述する。

情報処理システム１は、意味解析処理（発話意味解析器）について以下のような処理を行う。情報処理システム１は、意味解析処理により、テキスト（文字列）から、意味フレームを生成する。例えば、情報処理システム１は、意味解析処理（発話意味解析器）の機能により、どのアプリやサービスを実行するかを判断するためのドメインゴールと、アプリやサービスを具体的に実行するために用いられるスロット情報を含めた表形式である意味フレームの情報を生成する。

情報処理システム１は、意味フレームのスロット逆変換について以下のような処理を行う。意味解析処理（発話意味解析器）によって出力された意味フレームは、特定言語による解析結果であり、ドメインゴールは言語依存しない抽象化された表現であるため、言語非依存である。一方、スロット情報の値は、特定言語の表現となり、アプリやサービスは一般的にはユーザが発話した入力言語で応答を返す必要がある。そのため、情報処理システム１は、正確にアプリやサービスを実行するために、スロット情報を特定言語から、入力言語に逆変換する場合がある。

情報処理システム１は、以下のような方法により逆変換を行う。１つ目の方法として、知識データベース（ＤＢ）から単語・フレーズの多言語変換辞書により変換する方法が挙げられる。２つ目の方法として、特定言語への翻訳器による逆翻訳する方法が挙げられる。情報処理システム１は、上述した方法に限らず、種々の方法により逆変換を行ってもよい。

なお、意味フレームのスロット情報は、基本的にはアーティスト名、曲名、地名、デバイス名などの文というよりは単語やフレーズであるため、知識ＤＢで辞書に変換対象により精度よく変換することができる。一方、情報処理システム１は、知識ＤＢにない表記の場合、２つ目の方法の逆翻訳により、特定言語から入力言語への逆翻訳を行い、２段階の変換を行ってもよい。

情報処理システム１は、応答生成について以下のような処理を行う。例えば、情報処理システム１は、意味解析処理（発話意味解析器）が通常の対応言語ではなく、対象外の言語を翻訳器により、疑似的に処理したことがわかるように、応答の際に、入力時、解析時、出力時の３フェーズにて、どの言語で処理したかがわかる形式で出力する。なお、この点の例については図１１で説明する。例えば、情報処理システム１は、画像（アイコンなど）、音声（効果音など）、テキスト（言語名／言語コード）等の形式で出力する。

［１−２．実施形態に係る情報処理システムの構成］
図２に示す情報処理システム１について説明する。図２に示すように、情報処理システム１は、端末装置１０と、情報処理装置１００とが含まれる。端末装置１０と、情報処理装置１００とは所定の通信網（ネットワークＮ）を介して、有線または無線により通信可能に接続される。図２は、実施形態に係る情報処理システムの構成例を示す図である。なお、図２に示した情報処理システム１には、複数台の端末装置１０や、複数台の情報処理装置１００が含まれてもよい。例えば、情報処理システム１は、上述した対話システムを実現する。

情報処理装置１００は、第１言語によるユーザの発話に対応する第１文字情報を、第２言語の第２文字情報に変換し、正規化された第２文字情報を用いて、意味解析処理を実行するコンピュータである。情報処理装置１００は、第２言語に対応する意味解析処理の結果を第１言語に変換する逆変換処理を行う。また、情報処理装置１００は、各種情報を端末装置１０に送信するコンピュータである。情報処理装置１００は、各種機能に関するサービスを提供するために用いられるサーバ装置である。例えば、情報処理装置１００は、ユーザに対話システムに関するサービスを提供するために用いられる。情報処理装置１００は、ユーザに対話システムに関する各種情報処理を行う。

また、情報処理装置１００は、音声信号処理や音声認識や発話意味解析や対話制御等のソフトウェアモジュールを有してもよい。情報処理装置１００は、音声認識の機能を有してもよい。例えば、情報処理装置１００は、自然言語理解（ＮＬＵ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ）や自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）の機能を有してもよい。例えば、情報処理装置１００は、ユーザの発話による入力情報からユーザのインテント（意図）やエンティティ（対象）に関する情報を推定してもよい。情報処理装置１００は、自然言語理解や自動音声認識の機能を有するサーバとして機能する。

端末装置１０は、ユーザの発話を検知し、ユーザの発話の音声等を情報処理装置１００等へ送信するコンピュータである。また、端末装置１０は、自然言語理解や自動音声認識等の音声認識の機能を有してもよい。例えば、端末装置１０は、ユーザの発話による入力情報からユーザのインテント（意図）やエンティティ（対象）に関する情報を推定してもよい。端末装置１０は、ユーザによって利用されるデバイス装置である。端末装置１０は、ユーザによる入力を受け付ける。端末装置１０は、ユーザの発話による音声入力や、ユーザの操作による入力を受け付ける。端末装置１０は、ユーザの入力に応じた情報を表示する。

端末装置１０は、ユーザによって利用される情報処理装置である。端末装置１０は、ユーザの発話に対して応答を行う対話サービスの提供に用いられる。端末装置１０は、マイク等の音を検知する音センサを有する。例えば、端末装置１０は、音センサにより、端末装置１０の周囲におけるユーザの発話を検知する。例えば、端末装置１０は、周囲の音を検知し、検知した音に応じて種々の処理を行うデバイス（音声アシスト端末）であってもよい。端末装置１０は、ユーザの発話に対して、処理を行うコンピュータである。

端末装置１０は、実施形態における処理を実現可能であれば、どのような装置であってもよい。端末装置１０は、ユーザの発話を検知し、情報処理装置１００へ送信する機能を有する構成であれば、どのような装置であってもよい。端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等の装置であってもよい。端末装置１０は、ユーザが身に着けるウェアラブル端末（Wearable Device）等であってもよい。例えば、端末装置１０は、腕時計型端末やメガネ型端末等であってもよい。また、端末装置１０は、テレビや冷蔵庫等のいわゆる家電製品であってもよい。例えば、端末装置１０は、スマートスピーカやエンタテインメントロボットや家庭用ロボットと称されるような、人間（ユーザ）と対話するロボットであってもよい。また、端末装置１０は、デジタルサイネージ等の所定の位置に配置される装置であってもよい。

［１−３．実施形態に係る情報処理装置の構成］
次に、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置１００の構成について説明する。図３は、本開示の実施形態に係る情報処理装置１００の構成例を示す図である。

図３に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮ（図２参照）と有線または無線で接続され、端末装置１０等の他の情報処理装置との間で情報の送受信を行う。また、通信部１１０は、端末装置１０との間で情報の送受信を行ってもよい。

記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図３に示すように、言語情報記憶部１２１と、意味フレーム情報記憶部１２２と、言語間対応表情報記憶部１２３と、閾値情報記憶部１２４と、知識情報記憶部１２５とを有する。記憶部１２０は、文字情報の入力に応じて、特定したドメインゴール等の意味フレームの情報と、その精度（確信度）を示すスコア（「意味解析スコア」ともいう）とを出力する意味解析器を記憶する。記憶部１２０は、意味解析が可能な特定言語ごとの意味解析器の情報を記憶する。例えば、記憶部１２０は、特定言語である英語の意味解析器や日本語の意味解析器等、特定言語ごとの意味解析器の情報を記憶する。

実施形態に係る言語情報記憶部１２１は、言語に関する各種情報を記憶する。例えば、言語情報記憶部１２１は、情報処理システム１が言語識別（音声認識）可能な言語の各種情報を記憶する。言語情報記憶部１２１は、各言語が意味解析可能な言語（特定言語）であるかを示す情報や、各言語を翻訳可能な言語（翻訳先言語）を示す情報を記憶する。図４は、実施形態に係る言語情報記憶部の一例を示す図である。図４に示す言語情報記憶部１２１には、「言語」、「特定言語（意味解析可能）」、「翻訳先言語」といった項目が含まれる。また、「翻訳先言語」には、「＃１」、「＃２」等といった項目が含まれる。なお、図４では「＃１」、「＃２」のみを図示するが、「翻訳先言語」には、「＃３」、「＃４」等、翻訳先言語に対応する数の項目が含まれてもよい。

「言語」は、言語を示す。例えば、「言語」は、情報処理システム１が言語識別（音声認識）可能な言語を示す。また、言語を識別するための識別情報（言語ＩＤ）が各言語に対応付けて記憶されてもよい。例えば、各言語を識別する言語コードが記憶されてもよい。

「特定言語（意味解析可能）」は、意味解析可能な言語（特定言語）であるかを示す。「特定言語（意味解析可能）」には、特定言語がどうかを示すフラグが記憶される。例えば、「特定言語（意味解析可能）」には、その言語が意味解析可能である場合「１」が記憶され、その言語が意味解析可能ではない場合「０」が記憶される。例えば、「特定言語（意味解析可能）」には、その言語が特定言語である場合「１」が記憶され、その言語が特定言語ではない場合「０」が記憶される。

「翻訳先言語」は、その言語を翻訳可能な言語（翻訳先言語）を示す。例えば、「翻訳先言語」は、その言語を翻訳することができる翻訳先の言語（翻訳先言語）を示す。

図４の例では、言語「英語」は、「特定言語（意味解析可能）」が「１」であり、意味解析可能な特定言語であることを示す。また、言語「英語」は、中国語やヒンディー語等に翻訳可能であることを示す。

また、言語「中国語」は、「特定言語（意味解析可能）」が「０」であり、意味解析可能な特定言語ではないことを示す。また、言語「中国語」は、英語やアラビア語等に翻訳可能であることを示す。

なお、言語情報記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

実施形態に係る意味フレーム情報記憶部１２２は、意味フレームに関する各種情報を記憶する。意味フレーム情報記憶部１２２は、言語ごとに意味フレームに関する各種情報を記憶する。例えば、意味フレーム情報記憶部１２２は、各特定言語に対応する意味フレームに関する情報を記憶する。

図５の例では、意味フレーム情報記憶部１２２は、フレーム情報ＦＭ１やフレーム情報ＦＭ２等のように特定言語ごとに情報（テーブル）を記憶する。例えば、フレーム情報ＦＭ１は、特定言語である言語「英語」の意味フレームに関する情報を示す。また、例えば、フレーム情報ＦＭ２は、特定言語である言語「日本語」の意味フレームに関する情報を示す。

図５に示すフレーム情報ＦＭ１やフレーム情報ＦＭ２等は、「言語」、「Ｄｏｍａｉｎ−Ｇｏａｌ」、「Ｓｌｏｔ」といった項目が含まれる。また、「Ｓｌｏｔ」には、「Ａｔｔｒｉｂｕｔｅ」、「Ｖａｌｕｅ」といった項目が含まれる。

また、「Ｄｏｍａｉｎ−Ｇｏａｌ」は、意味フレームのＤｏｍａｉｎ−Ｇｏａｌ（ドメインゴール）を示す。例えば、「Ｄｏｍａｉｎ−Ｇｏａｌ」は、発話の目的（意図）等を示す。

「Ｓｌｏｔ」は、対応するＤｏｍａｉｎ−Ｇｏａｌのスロット（構成要素）に関する各種情報が記憶される。例えば、「Ｓｌｏｔ」は、対応するドメインゴールに含まれる属性（スロット名）やその値（スロット値）が記憶される。「Ａｔｔｒｉｂｕｔｅ」は、スロット（構成要素）の属性（スロット名）を示す。「Ｖａｌｕｅ」は、対応する属性（スロット名）のスロット値を示す。なお、意味フレーム情報記憶部１２２中の「Ｖａｌｕｅ」に示す「−（ハイフン）」は、「Ｖａｌｕｅ」に値が格納されていないことを示す。なお、「Ｖａｌｕｅ」には、ユーザの意味解析の処理に用いられる場合、ユーザの発話に対応して具体的な値（情報）が格納される。

図５の例では、言語「英語」には、Ｄｏｍａｉｎ−Ｇｏａｌが「Ｗｅａｔｈｅｒ−Ｃｈｅｃｋ」や「Ｍｕｓｉｃ−Ｐｌａｙ」である意味フレームが含まれることを示す。また、Ｄｏｍａｉｎ−Ｇｏａｌ「Ｗｅａｔｈｅｒ−Ｃｈｅｃｋ」には、「Ａｔｔｒｉｂｕｔｅ」が「Ｄａｔｅ」や「Ｐｌａｃｅ」であるＳｌｏｔが含まれることを示す。すなわち、天気をチェックするＤｏｍａｉｎ−Ｇｏａｌ「Ｗｅａｔｈｅｒ−Ｃｈｅｃｋ」には、日時や場所に関するスロットが含まれる。

なお、意味フレーム情報記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、意味フレーム情報記憶部１２２には、各「Ｖａｌｕｅ」に格納される値の形式が記憶されてもよい。例えば、「Ｖａｌｕｅ」に記憶される値が、数値か、それ以外の情報（文字列等）であるかを示す情報を記憶されてもよい。例えば、「Ｖａｌｕｅ」に記憶される値が、言語に共通して使用可能な情報であるかを示す情報が記憶されてもよい。例えば、「Ｖａｌｕｅ」に記憶される値が、数値である場合、言語に共通して使用可能なことを示す情報が記憶されてもよい。

実施形態に係る言語間対応表情報記憶部１２３は、言語間の対応関係を示す情報を記憶する。言語間対応表情報記憶部１２３は、特定言語以外の言語と、特定言語との対応関係を示す情報を記憶する。例えば、言語間対応表情報記憶部１２３は、特定言語の選択に関する情報を記憶する。例えば、言語間対応表情報記憶部１２３は、言語を翻訳する際に、どの特定言語に翻訳するかを示す情報を記憶する。図６は、実施形態に係る言語間対応表情報記憶部の一例を示す図である。図６に示す言語間対応表情報記憶部１２３には、「入力可能言語」、「選択的特定言語」といった項目が含まれる。

「入力可能言語」は、入力可能な言語を示す。例えば、「入力可能言語」は、情報処理システム１が言語識別（音声認識）可能な言語を示す。また、入力可能言語を識別するための識別情報（言語ＩＤ）が各入力可能言語に対応付けて記憶されてもよい。例えば、各入力可能言語を識別する言語コードが記憶されてもよい。例えば、「入力可能言語」には、特定言語以外の言語（非特定言語）が記憶される。

「選択的特定言語」は、選択された特定言語を示す。例えば、「選択的特定言語」は、情報処理システム１に入力可能言語が入力された場合に、入力可能言語を翻訳する言語（特定言語）を示す。また、選択的特定言語を識別するための識別情報（言語ＩＤ）が各選択的特定言語に対応付けて記憶されてもよい。例えば、各選択的特定言語を識別する言語コードが記憶されてもよい。例えば、「選択的特定言語」には、情報処理システム１の管理者等により各非特定言語に対して指定された特定言語が記憶される。

図６の例では、入力可能言語「スペイン語」の選択的特定言語は「英語」であることを示す。すなわち、情報処理システム１にスペイン語が入力された場合、特定言語である英語に翻訳することを示す。例えば、スペイン語でユーザが発話を行った場合、スペイン語の文字情報（第１文字情報）が英語の文字情報（第２文字情報）に変換されることを示す。この場合、スペイン語が第１言語となり、英語が第２言語となる。

なお、言語間対応表情報記憶部１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。言語間対応表情報記憶部１２３は、各入力可能言語に対して複数の選択的特定言語を対応づけて記憶してもよい。

上記のような言語間対応表は、特定言語に翻訳する際、どの言語を選択するかを決定する際に用いられる。例えば、言語間対応表とは、翻訳処理（翻訳器）が対応する入力言語に対して、意味解析処理（意味解析器）が対応する特定言語のすべてにおいて、言語間距離が短いものを事前に保持しておくテーブル（一覧表）であってもよい。ここでの言語間距離は、入力言語の文が文法構造（例えば日本語のＳＯＶや英語のＳＶＯ等）の視点で似ているもの、単語が近いもの（例えば韓国語と日本語）、語順が似ているもの（例えば韓国語と日本語）から判断（算出）されてもよい。また、言語間距離は、文字列の表層から編集距離（例えばレーベンシュタイン距離等）によって判断（算出）されてもよい。情報処理システム１は、図６のような言語間対応表を事前に持つことで、入力言語に対応する翻訳先の言語を得ることが可能となる。

実施形態に係る閾値情報記憶部１２４は、閾値に関する各種情報を記憶する。閾値情報記憶部１２４は、スコアとの比較に用いる閾値に関する各種情報を記憶する。図７は、実施形態に係る閾値情報記憶部の一例を示す図である。図７に示す閾値情報記憶部１２４には、「閾値ＩＤ」、「閾値」といった項目が含まれる。

「閾値ＩＤ」は、閾値を識別するための識別情報を示す。また、「閾値」は、対応する閾値ＩＤにより識別される閾値の具体的な値を示す。また、各閾値には、その用途を示す情報が対応付けて記憶される。

図７の例では、閾値ＩＤ「ＴＨ１」により識別される閾値ＴＨ１の値は、「０．７５」であることを示す。また、閾値ＴＨ１は、その用途が（例えば翻訳の）品質推定であることを示す情報が対応付けて記憶される。

なお、閾値情報記憶部１２４は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、閾値情報記憶部１２４は、閾値の用途を閾値ＩＤに対応付けて記憶してもよい。例えば、閾値情報記憶部１２４は、閾値ＩＤ「ＴＨ１」に用途「品質推定」を対応付けて記憶してもよい。また、閾値情報記憶部１２４は、正規化判定に用いる閾値（正規化要否判定要閾値）を記憶する。例えば、閾値情報記憶部１２４は、閾値ＩＤ「ＴＨ２」より識別される正規化要否判定要閾値の値（例えば、０．５や０．８等）を記憶する。

実施形態に係る知識情報記憶部１２５は、知識に関する各種情報を記憶する。知識情報記憶部１２５は、知識データベース（知識ＤＢ）として機能する。知識情報記憶部１２５は、多言語辞書の情報を記憶する。例えば、知識情報記憶部１２５は、各言語間での各対象を示す文字列の対応関係を示す情報を記憶する。なお、情報処理装置１００が外部から知識を取得する場合、情報処理装置１００は、知識情報記憶部１２５を有しなくてもよい。

図３に戻り、説明を続ける。制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、情報処理装置１００内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム等の決定プログラム）がＲＡＭ（Random Access Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図３に示すように、制御部１３０は、取得部１３１と、変換部１３２と、実行部１３３と、逆変換部１３４と、生成部１３５と、送信部１３６とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

取得部１３１は、各種情報を取得する。取得部１３１は、外部の情報処理装置から各種情報を取得する。取得部１３１は、端末装置１０から各種情報を取得する。

取得部１３１は、記憶部１２０から各種情報を取得する。取得部１３１は、言語情報記憶部１２１や意味フレーム情報記憶部１２２や言語間対応表情報記憶部１２３や閾値情報記憶部１２４や知識情報記憶部１２５から各種情報を取得する。

取得部１３１は、変換部１３２が変換した各種情報を取得する。取得部１３１は、実行部１３３が実行した各種情報を取得する。取得部１３１は、逆変換部１３４が変換した各種情報を取得する。取得部１３１は、生成部１３５が生成した各種情報を取得する。

例えば、取得部１３１は、正規化を判定するモデル（関数）を取得してもよい。取得部１３１は、正規化を判定するモデル（関数）等の各種のモデル（関数）を提供する外部の情報処理装置や記憶部１２０から正規化を判定するモデル（関数）を取得する。例えば、取得部１３１は、正規化を判定するモデル（関数）を取得する。例えば、取得部１３１は、図９に示すようなネットワークＮＷ１に対応する正規化の要否を判定するモデル（正規化判定モデル）を取得する。例えば、取得部１３１は、翻訳の品質を推定するモデル（品質推定モデル）を取得する。

取得部１３１は、第１言語によるユーザの発話情報を取得する。取得部１３１は、第１言語によるユーザの発話に対応する第１文字情報を取得する。

変換部１３２は、各種情報を変換する。変換部１３２は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を変換する。変換部１３２は、記憶部１２０から、各種情報を変換する。変換部１３２は、言語情報記憶部１２１や意味フレーム情報記憶部１２２や言語間対応表情報記憶部１２３や閾値情報記憶部１２４や知識情報記憶部１２５に記憶された情報に基づいて、各種情報を変換する。

変換部１３２は、第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換する。変換部１３２は、第１文字情報を、一の第２言語に対応する一の第２文字情報に変換する。変換部１３２は、複数の第２言語のうち所定の基準に基づいて選択された一の第２言語に対応する一の第２文字情報に、第１文字情報を変換する。

変換部１３２は、変換に関する言語の対応付けを示す言語間対応表を用いて、第１言語に対応付けられた第２言語を、一の第２言語として第１文字情報を変換する。変換部１３２は、第１文字情報を、複数の第２言語の各々に対応する複数の第２文字情報に変換する。変換部１３２は、第１言語によるユーザの発話情報が正規化された第１文字情報を、１以上の第２文字情報に変換する。変換部１３２は、発話情報に対する正規化が不要と判定された場合、発話情報を第１文字情報として、１以上の第２文字情報に変換する。

変換部１３２は、各種情報を決定する。変換部１３２は、各種情報を判定する。変換部１３２は、言語識別（音声認識）が可能な言語かを判定する。変換部１３２は、入力言語が対象外言語かを判定する。変換部１３２は、第１言語が対象外言語かを判定する。変換部１３２は、言語識別（音声認識）できない言語を対象外言語であると判定する。変換部１３２は、入力言語が特定言語かどうかを判定する。変換部１３２は、第１言語が特定言語かどうかを判定する。変換部１３２は、第１言語が特定言語ではないと判定した場合、第２言語への翻訳を行う。変換部１３２は、第１言語が特定言語ではないと判定した場合、第１文字情報を、第２言語に翻訳する。変換部１３２は、第１言語が特定言語ではないと判定した場合、第１文字情報を、第２言語の第２文字情報に変換する。

変換部１３２は、各種処理の実行を判定する。変換部１３２は、正規化の実行要否を判定する。変換部１３２は、文字情報を正規化する処理を実行する。変換部１３２は、口語調の文字情報の形式を文語調の形式に変換（正規化）する処理を実行する。変換部１３２は、ユーザの発話情報を正規化する処理を実行する。変換部１３２は、正規化が必要と判定した場合、ユーザの発話情報を正規化する処理を実行する。

変換部１３２は、前処理正規化により、正規化された第１文字情報（正規化テキスト）を生成する。変換部１３２は、前処理正規化により、翻訳処理に対応する形式に文字情報の形式を正規化する。変換部１３２は、ユーザの発話情報が口語調である場合、ユーザの発話情報を文語調に変換（正規化）する処理を実行する。変換部１３２は、第１文字情報が口語調である場合、第１文字情報を文語調に変換（正規化）する処理を実行する。なお、変換部１３２は、第１言語から第２言語に変換（翻訳）する翻訳器が口語調の入力でも精度が変化しない場合、口語調の文字情報の形式を文語調の形式に変換（正規化）する処理を実行しなくてもよい。

実行部１３３は、各種処理を実行する。実行部１３３は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部１３３は、記憶部１２０に記憶された情報に基づいて、各種処理を実行する。実行部１３３は、言語情報記憶部１２１や意味フレーム情報記憶部１２２や言語間対応表情報記憶部１２３や閾値情報記憶部１２４や知識情報記憶部１２５に記憶された情報に基づいて、各種処理を実行する。実行部１３３は、処理の実行により各種情報を生成する。

実行部１３３は、取得部１３１により取得された各種情報に基づいて、各種処理を実行する。実行部１３３は、変換部１３２により変換された各種情報に基づいて、各種処理を実行する。実行部１３３は、逆変換部１３４により変換された各種情報に基づいて、各種処理を実行する。実行部１３３は、取得部１３１により取得された各種情報に基づいて、各種情報を抽出する。実行部１３３は、変換部１３２により変換された各種情報に基づいて、各種情報を抽出する。また、実行部１３３は、逆変換部１３４により変換された各種情報に基づいて、各種情報を抽出する。実行部１３３は、生成部１３５により生成された情報に基づいて、各種情報を抽出する。

実行部１３３は、各種情報を決定する。実行部１３３は、各種情報を判定する。実行部１３３は、各種処理の実行を決定する。実行部１３３は、各種処理の実行を判定する。実行部１３３は、正規化の実行要否を判定する。実行部１３３は、文字情報を正規化する処理を実行する。実行部１３３は、文語調の文字情報の形式を口語調の形式に形式を変換（正規化）する処理を実行する。実行部１３３は、第２文字情報を正規化する処理を実行する。実行部１３３は、正規化が必要と判定した場合、第２文字情報を正規化する処理を実行する。

実行部１３３は、後処理正規化により、意味解析処理に対応する形式に文字情報の形式を正規化する。実行部１３３は、第２文字情報が文語調である場合、第２文字情報を口語調に変換（正規化）する処理を実行する。なお、実行部１３３は、意味解析を行う意味解析器が文語調の入力でも精度が変化しない場合、文語調の文字情報の形式を口語調の形式に形式を変換（正規化）する処理を実行しなくてもよい。

実行部１３３は、各種情報を特定する。実行部１３３は、各種情報を推定する。実行部１３３は、各種情報を抽出する。実行部１３３は、各種情報を選択する。実行部１３３は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を抽出する。実行部１３３は、記憶部１２０から、各種情報を抽出する。実行部１３３は、言語情報記憶部１２１や意味フレーム情報記憶部１２２や言語間対応表情報記憶部１２３や閾値情報記憶部１２４や知識情報記憶部１２５から、各種情報を抽出する。実行部１３３は、各種情報を算出する。実行部１３３は、各種の値を算出する。実行部１３３は、各種スコアを算出する。

実行部１３３は、ユーザの発話に対応する文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、発話の内容やユーザの状況を推定（特定）する。実行部１３３は、変換部１３２により変換された文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、文字情報の内容や文字情報に対応するユーザの状況を推定（特定）する。実行部１３３は、変換部１３２により第１言語から第２言語に変換された文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、文字情報の内容や文字情報に対応するユーザの状況を推定（特定）する。例えば、実行部１３３は、文字情報を構文解析等の種々の従来技術を適宜用いて解析することにより、文字情報に対応するユーザの発話の内容を推定する。

実行部１３３は、ユーザの発話を解析することにより、ユーザの発話の意図等の内容を推定する。実行部１３３は、種々の従来技術を適宜用いてユーザの発話の意図等の内容を推定する。実行部１３３は、種々の従来技術を適宜用いて、ユーザの発話を解析することにより、ユーザの発話の内容を推定する。実行部１３３は、ユーザの発話の文字情報から重要なキーワードを抽出し、抽出したキーワードに基づいてユーザの発話の内容を推定する。

実行部１３３は、発話に対応する文字情報を解析することにより、ユーザの発話に対応するＤｏｍａｉｎ−Ｇｏａｌ（ドメインゴール）を特定する。実行部１３３は、発話に対応する文字情報を解析することにより、特定したＤｏｍａｉｎ−Ｇｏａｌ（ドメインゴール）に対応するスロット値等の属性情報を推定する。実行部１３３は、翻訳の品質推定（単に「品質推定」ともいう）を行う。実行部１３３は、翻訳された文字情報の品質を推定する。実行部１３３は、適宜の方法により文字情報（翻訳テキスト）の品質推定翻訳精度（品質スコア）を算出する。例えば、実行部１３３は、翻訳前の文字情報と、翻訳後の文字情報との入力に応じて、その品質推定翻訳精度を示すスコア（品質スコア）を出力するモデル（品質推定モデル）を用いて、品質推定翻訳精度（品質スコア）を算出してもよい。例えば、実行部１３３は、翻訳前の文字情報、翻訳後の文字情報及びそのスコア（正解スコア）の組合せを学習データとして学習された品質推定モデルを用いて、品質推定翻訳精度（品質スコア）を算出してもよい。実行部１３３は、翻訳前の文字情報と翻訳後の文字情報とを基に、情報処理システム１の管理者等により設定されたスコア（正解スコア）を含む学習データとして学習された品質推定モデルを用いて、品質推定翻訳精度（品質スコア）を算出してもよい。実行部１３３は、品質スコアと閾値（例えば０．７５等）と比較する。実行部１３３は、文字情報の品質スコアが閾値以上であれば、その文字情報の品質が高い（ハイスコアである）と判定し、第２文字情報の品質推定翻訳精度（品質スコア）が閾値未満であれば、その第２文字情報の品質が低い（ロースコアである）と判定する。

実行部１３３は、意味解析が処理に対応する形式に１以上の第２文字情報を正規化する。実行部１３３は、正規化された１以上の第２文字情報を用いて、意味解析処理を実行する。実行部１３３は、一の第２文字情報に対して意味解析処理を実行する。実行部１３３は、複数の第２文字情報を用いて、意味解析処理を実行する。実行部１３３は、１以上の第２文字情報のうち正規化が不要と判定された第２文字情報に対して、正規化無しで意味解析処理を実行する。実行部１３３は、１以上の第２文字情報の品質が低い場合、１以上の第２文字情報を用いた意味解析処理を実行しない。実行部１３３は、１以上の第２文字情報の品質を示す品質スコアが品質閾値より低い場合、１以上の第２文字情報を用いた意味解析処理を実行しない。実行部１３３は、人による後編集が所定の時間内に完了する場合、後編集により生成された第２文字情報を用いて、意味解析処理を実行する。実行部１３３は、人による後編集が所定の時間内に完了しない場合、処理中断に関する処理を実行する。実行部１３３は、処理中断を行うことを通知する処理を実行する。実行部１３３は、第１言語が意味解析処理を実行可能である場合、第１文字情報に対して意味解析処理を実行する。実行部１３３は、各言語の意味解析器を用いて言語ごとに意味解析処理を実行する。実行部１３３は、文字情報の入力に応じて、特定したドメインゴール等の意味フレームの情報と、その精度（確信度）を示すスコア（意味解析スコア）とを出力する意味解析器を用いて、意味解析処理を実行する。

実行部１３３は、意味解析の精度を示すスコア（意味解析スコア）を算出する。実行部１３３は、意味解析処理において特定したドメインゴールの確信度（精度）を示す意味解析スコアを算出する。実行部１３３は、意味解析処理に用いる意味解析器が出力するスコアを意味解析スコアとして用いてもよい。実行部１３３は、各言語の意味解析処理に用いる言語ごとの意味解析器が出力するスコアを各言語の意味解析スコアとして用いる。なお、実行部１３３は、種々の技術を適宜用いて、意味解析スコアを算出してもよい。

逆変換部１３４は、各種情報を変換する。例えば、逆変換部１３４は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を変換する。逆変換部１３４は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を変換する。逆変換部１３４は、言語情報記憶部１２１や意味フレーム情報記憶部１２２や言語間対応表情報記憶部１２３や閾値情報記憶部１２４や知識情報記憶部１２５に記憶された情報に基づいて、各種情報を変換する。

逆変換部１３４は、取得部１３１により取得された各種情報に基づいて、各種情報を変換する。逆変換部１３４は、変換部１３２により変換された各種情報に基づいて、各種情報を変換する。逆変換部１３４は、実行部１３３により算出された各種情報に基づいて、各種情報を変換する。逆変換部１３４は、生成部１３５により生成された各種情報に基づいて、各種情報を変換する。逆変換部１３４は、変換に基づいて、各種情報を変更する。取得部１３１により取得された情報に基づいて、各種情報を更新する。

逆変換部１３４は、１以上の第２言語の各々に対応する意味解析処理の結果を第１言語に変換する。逆変換部１３４は、意味解析処理の結果のうち一部を第１言語に変換する。逆変換部１３４は、意味解析処理の結果のうちスロット値を第１言語に変換する。逆変換部１３４は、一の第２言語に対する意味解析処理の結果を第１言語に変換する。

逆変換部１３４は、複数の第２言語のうち、所定の条件を満たす第２言語に対する意味解析処理の結果を第１言語に変換する。逆変換部１３４は、複数の第２言語のうち、意味解析処理のスコアが所定の閾値以上である第２言語に対する意味解析処理の結果を第１言語に変換する。逆変換部１３４は、複数の第２言語の全てに対する意味解析処理の結果を第１言語に変換する。

逆変換部１３４は、各種情報を決定する。逆変換部１３４は、各種情報を判定する。逆変換部１３４は、各種処理の実行を判定する。逆変換部１３４は、逆変換の実行要否を判定する。逆変換部１３４は、逆変換が不要な情報については、第１言語に変換しなくてもよい。逆変換部１３４は、意味解析処理の結果のうち、逆変換が不要な情報については、第１言語に変換しなくてもよい。逆変換部１３４は、意味解析処理の結果のうち、言語に共通する情報については、第１言語に変換しなくてもよい。逆変換部１３４は、スロット値のうち、数値等の言語に共通する情報については、第１言語に変換しなくてもよい。

生成部１３５は、各種情報を生成する。生成部１３５は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を生成する。生成部１３５は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を生成する。生成部１３５は、言語情報記憶部１２１や意味フレーム情報記憶部１２２や言語間対応表情報記憶部１２３や閾値情報記憶部１２４や知識情報記憶部１２５に記憶された情報に基づいて、各種情報を生成する。

生成部１３５は、取得部１３１により取得された各種情報に基づいて、各種情報を生成する。生成部１３５は、変換部１３２により変換された各種情報に基づいて、各種情報を生成する。生成部１３５は、実行部１３３の処理実行により生成された各種情報に基づいて、各種情報を生成する。生成部１３５は、逆変換部１３４により変換された各種情報に基づいて、各種情報を生成する。

生成部１３５は、種々の技術を適宜用いて、外部の情報処理装置へ提供する画面（画像情報）等の種々の情報を生成する。生成部１３５は、端末装置１０へ提供する画面（画像情報）等を生成する。例えば、生成部１３５は、記憶部１２０に記憶された情報に基づいて、端末装置１０へ提供する画面（画像情報）等を生成する。

生成部１３５は、外部の情報処理装置へ提供する画面（画像情報）等が生成可能であれば、どのような処理により画面（画像情報）等を生成してもよい。例えば、生成部１３５は、画像生成や画像処理等に関する種々の技術を適宜用いて、端末装置１０へ提供する画面（画像情報）を生成する。例えば、生成部１３５は、Ｊａｖａ（登録商標）等の種々の技術を適宜用いて、端末装置１０へ提供する画面（画像情報）を生成する。なお、生成部１３５は、ＣＳＳやＪａｖａＳｃｒｉｐｔ（登録商標）やＨＴＭＬの形式に基づいて、端末装置１０へ提供する画面（画像情報）を生成してもよい。また、例えば、生成部１３５は、ＪＰＥＧ（Joint Photographic Experts Group）やＧＩＦ（Graphics Interchange Format）やＰＮＧ（Portable Network Graphics）など様々な形式で画面（画像情報）を生成してもよい。

生成部１３５は、正規化の要否を判定する関数を生成してもよい。例えば、生成部１３５は、正規化の要否を判定するモデルを生成する。生成部１３５は、図９に示すようなネットワークＮＷ１に対応する正規化判定モデル（正規化判定関数）を生成する。

例えば、生成部１３５は、正規化が行われた文字情報と、その文字情報に対して正規化が必要であることを示すフラグ「１」とが対応付けられた学習データ（正例）を用いて、正規化判定モデルを生成する。この場合、生成部１３５は、正例の文字情報が入力された場合に、「１」を出力するように学習処理を行い、正規化判定モデルを生成する。例えば、生成部１３５は、正規化が行われた文字情報と、その文字情報に対して正規化が不要であることを示すフラグ「０」とが対応付けられた学習データ（負例）を用いて、正規化判定モデルを生成する。この場合、生成部１３５は、負例の文字情報が入力された場合に、「０」を出力するように学習処理を行い、正規化判定モデルを生成する。

例えば、生成部１３５は、翻訳前の文字情報、翻訳後の文字情報及びそのスコア（正解スコア）の組合せを含む学習データを用いて、品質推定モデルを生成する。生成部１３５は、翻訳前の文字情報と翻訳後の文字情報とを基に、情報処理システム１の管理者等により設定されたスコア（正解スコア）を含む学習データを用いて、品質推定モデルを生成する。

送信部１３６は、各種情報を送信する。送信部１３６は、外部の情報処理装置へ各種情報を送信する。送信部１３６は、外部の情報処理装置へ各種情報を提供する。例えば、送信部１３６は、端末装置１０等の他の情報処理装置へ各種情報を送信する。送信部１３６は、記憶部１２０に記憶された情報を提供する。送信部１３６は、記憶部１２０に記憶された情報を送信する。

送信部１３６は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を提供する。送信部１３６は、記憶部１２０に記憶された情報に基づいて、各種情報を提供する。送信部１３６は、言語情報記憶部１２１や意味フレーム情報記憶部１２２や言語間対応表情報記憶部１２３や閾値情報記憶部１２４や知識情報記憶部１２５に記憶された情報に基づいて、各種情報を提供する。

送信部１３６は、端末装置１０に実行させる機能を示す情報を端末装置１０に送信する。送信部１３６は、実行部１３３により選択された機能（サービス）を示す情報を端末装置１０に送信する。送信部１３６は、実行部１３３による指示に応じて、端末装置１０に各種の情報を送信する。送信部１３６は、端末装置１０に機能（サービス）の実行を指示する情報を送信する。送信部１３６は、生成部１３５によって生成された画像情報を送信する。

［１−４．正規化判定及び正規化処理］
ここで正規化判定及び正規化処理について説明する。

［１−４−１．後処理正規化］
まず、図８を用いて後処理正規化における正規化判定について詳述する。図８は、本開示の実施形態に係る正規化判定の一例を示す図である。

図８の例では、情報処理装置１００は、翻訳後のテキストに対して、正規化判定モデルＭＤ１により、意味解析器の想定入力の表現に変換する必要があるかを判定する。例えば、情報処理装置１００は、正規化判定モデルＭＤ１の出力の変換フラグが１の場合に実行され、翻訳結果のテキストを、意味解析器が想定する表現に変換する。図８の例では、正規化判定モデルＭＤ１は、「アーティストＸＸＸ再生する」が入力された場合、変換フラグ「１」を出力する。これにより、情報処理装置１００は、「アーティストＸＸＸ再生する」に対して後処理正規化処理を行うと判定する。そして、情報処理装置１００は、「アーティストＸＸＸ再生する」に対して後処理正規化処理を行うことで、「アーティストＸＸＸの曲を再生して」と口語調の形式に正規化する。このように、情報処理装置１００は、発話依頼調の表現および、曲を追加することによるあいまい性を解消する。

また、図８の例では、正規化判定モデルＭＤ１は、「アーティストＸＸＸの曲を再生して」が入力された場合、変換フラグ「０」を出力する。これにより、情報処理装置１００は、「アーティストＸＸＸの曲を再生して」に対して後処理正規化処理を行わないと判定する。このように、情報処理装置１００は、発話依頼調の表現および、あいまい性が低い第２文字情報の場合、後処理正規化を行うことなく意味解析処理を行う。

このように、情報処理装置１００は、後処理正規化処理により変換する必要があるかないかを変換フラグで判断可能である。例えば、正規化判定モジュールは、大きくルールベースによる判定と、機械学習によるモデル化するパターンが想定される。機械学習のモデル化の場合、訓練フェーズ（学習時）において、文字情報「音楽を再生する」に判定フラグ「１」を対応付け、「音楽をかけて」に判定フラグ「０」を対応付けた学習データを用いて正規化判定モデルＭＤ１を生成する。このように、文字情報と判定フラグ（変換フラグとを対応付けて、文字情報に対して、変換フラグ（１か０）の教師あり学習により、モデル化しておく。推論フェーズにおいて、モデルに文を入力すると、変換フラグを判定する機能となる。

例えば、情報処理装置１００は、意味解析器の想定入力の表現に変換する必要がある文字情報が入力された場合に１に近い変換フラグ（スコア）を出力する正規化判定モデルＭＤ１により、正規化判定を行う。情報処理装置１００は、意味解析器の想定入力の表現に変換する必要がない文字情報が入力された場合に０に近い変換フラグ（スコア）を出力する正規化判定モデルＭＤ１により、正規化判定を行う。

例えば、情報処理装置１００は、文字情報が入力された正規化判定モデルＭＤ１が出力した変換フラグ（スコア）と正規化判定用の閾値（例えば０．５や０．７等）とを比較して、その文字情報に対して意味解析器の想定入力の表現に変換する必要があるかを判定する。情報処理装置１００は、文字情報が入力された正規化判定モデルＭＤ１が出力した変換フラグ（スコア）が正規化判定用の閾値以上である場合、その文字情報に対して意味解析器の想定入力の表現に変換する必要があると判定する。情報処理装置１００は、文字情報が入力された正規化判定モデルＭＤ１が出力した変換フラグ（スコア）が正規化判定用の閾値未満である場合、その文字情報に対して意味解析器の想定入力の表現に変換する必要がないと判定してもよい。

また、情報処理装置１００は、正規化判定モデルＭＤ１について種々の関数を用いてもよい。例えば、情報処理装置１００は、ＳＶＭ（Support Vector Machine）等の回帰モデルやニューラルネットワーク（neural network）等、任意の形式のモデル（正規化判定モデル）を用いてもよい。情報処理装置１００は、非線形の回帰モデルや線形の回帰モデル等、種々の回帰モデルを用いてもよい。

この点について、図９を用いて一例を説明する。図９は、正規化判定モデルに対応するネットワークの一例を図である。図９は、正規化判定モデルの一例を示す概念図である。図９に示すネットワークＮＷ１は、入力層ＩＮＬと出力層ＯＵＴＬとの間に複数（多層）の中間層を含むニューラルネットワークを示す。例えば、情報処理装置１００は、図９に示すネットワークＮＷ１に対応する関数を用いて、変換フラグ（スコア）を算出してもよい。

ネットワークＮＷ１のような関数を用いて変換フラグ（スコア）を算出する場合、情報処理装置１００は、ネットワークＮＷ１中の入力層ＩＮＬに情報を入力することにより、出力層ＯＵＴＬから入力に対応するスコア（数値）を出力させる。なお、図９に示すネットワークＮＷ１は、正規化判定モデルの一例に過ぎず、変換フラグ（スコア）を出力する関数であれば、どのような関数であってもよい。

また、情報処理装置１００は、種々の学習手法に基づいて、学習処理を行うことにより、図９に示すようなネットワークＮＷ１に対応する正規化判定モデルを生成してもよい。情報処理装置１００は、機械学習に関する手法に基づいて、学習処理を行うことにより、正規化判定モデルを生成してもよい。なお、上記は一例であり、情報処理装置１００は、図９に示すようなネットワークＮＷ１に対応する正規化判定モデルを生成可能であれば、どのような学習手法により正規化判定モデルを生成してもよい。

また、情報処理装置１００は、後処理正規化を行うと判定された文字情報を種々の方法により正規化する。例えば、情報処理装置１００は、後処理正規化を行うモデル（後処理正規化モデル）を生成し、後処理正規化モデルを用いて第２文字情報を正規化してもよい。例えば、情報処理装置１００は、文字情報が入力に応じて、その文字情報に対して後処理正規化が行われた文字情報を出力する後処理正規化モデルを用いて、正規化された第２文字情報を生成してもよい。この場合、例えば、情報処理装置１００は、正規化判定モデルＭＤ１により正規化の必要があると判定された第２文字情報を、後処理正規化モデルに入力することにより、正規化された第２文字情報を生成してもよい。

後処理正規化モデルには、ＲＮＮ（Recurrent Neural Network）等の種々のネットワーク（ニューラルネットワーク）が用いられてもよい。例えば、後処理正規化モデルには、ＧＲＵ（Gated Recurrent Unit）やＬＳＴＭ（Long Short-Term Memory）等が用いられてもよい。なお、上記は一例であり、情報処理装置１００は、文字情報に対して後処理正規化が可能であれば、どのような手法により、後処理正規化を行ってもよい。

例えば、後処理正規化モデルは、後処理正規化前の文字情報と、後処理正規化後の文字情報との組合せを学習データとして生成される。例えば、後処理正規化モデルは、後処理正規化前の文字情報が入力された場合に、対応する後処理正規化後の文字情報が出力されるように学習処理が行われることにより、生成される。情報処理装置１００は、外部の情報処理装置から取得した後処理正規化モデルを用いてもよい。また、情報処理装置１００は、後処理正規化モデルを生成してもよい。

また、例えば、情報処理装置１００は、正規化前後の対応付けを示す一覧情報（「後処理ルール情報群」ともいう）を用いて、後処理正規化を行ってもよい。この場合、例えば、情報処理装置１００は、正規化判定モデルＭＤ１により正規化の必要があると判定した場合、後処理ルール情報群からその第２文字情報に対応する後処理ルール情報を抽出し、その後処理ルール情報に対応する正規化（変換）を行う。例えば、情報処理装置１００は、第２文字情報「音楽を再生する」の正規化が必要と判定した場合、後処理ルール情報群から語尾が「〜する」である文字情報の場合、語尾を「〜して」に変換するという後処理ルール情報を抽出する。そして、情報処理装置１００は、抽出した後処理ルール情報を用いて、第２文字情報「音楽を再生する」を正規化する。この場合、情報処理装置１００は、後処理正規化が必要と判定された第２文字情報「音楽を再生する」を正規化された第２文字情報「音楽を再生して」に変換する。このように、情報処理装置１００は、正規化の必要がある場合のみ第２文字情報の正規化を行い、正規化の必要がない場合、すなわち正規化された第２文字情報である場合は、そのまま第２文字情報を用いて意味解析等の処理を行う。情報処理装置１００は、既に第２文字情報が正規化された状態である場合、後処理正規化を行うことなくそのままの第２文字情報（すなわち正規化された第２文字情報）を用いて、意味解析等の処理を行う。

［１−４−２．前処理正規化］
また、情報処理装置１００は、前処理正規化については、上述した後処理正規化と同様に判定モデルを用いて行ってもよい。また、情報処理装置１００は、前処理正規化については、ルールベースで処理を行ってもよい。この場合、情報処理装置１００は、前処理正規化を行う条件を示す情報と、その条件を満たした場合の変換（正規化）の内容を示す情報を対応付けたルール情報（「前処理ルール情報」ともいう）を用いて、処理を行ってもよい。例えば、前処理ルール情報には、語尾が「〜して」である文字情報の場合、語尾を「〜する」に変換することを示す情報等の多数の条件と変換とを対応付けた情報が含まれる。前処理ルール情報は、記憶部１２０に記憶されてもよい。例えば、情報処理装置１００は、ルールに該当した場合、前処理正規化を行ってもよい。なお、上記は一例であり、情報処理装置１００は、種々の情報を適宜用いて前処理正規化やその正規化判定を行ってもよい。

また、情報処理装置１００は、前処理正規化を行うと判定された文字情報を種々の方法により正規化する。例えば、情報処理装置１００は、前処理正規化を行うモデル（前処理正規化モデル）を生成し、前処理正規化モデルを用いて文字情報を正規化してもよい。例えば、情報処理装置１００は、文字情報が入力に応じて、その文字情報に対して前処理正規化が行われた文字情報を出力する前処理正規化モデルを用いて、正規化された第１文字情報を生成してもよい。この場合、例えば、情報処理装置１００は、正規化判定モデルＭＤ１により正規化の必要があると判定された文字情報（発話情報）を、前処理正規化モデルに入力することにより、正規化された文字情報（第１文字情報）を生成してもよい。

前処理正規化モデルには、後処理正規化モデルと同様に、ＧＲＵやＬＳＴＭ等のＲＮＮ等の種々のネットワーク（ニューラルネットワーク）が用いられてもよい。なお、上記は一例であり、情報処理装置１００は、文字情報に対して前処理正規化が可能であれば、どのような手法により、前処理正規化を行ってもよい。

例えば、前処理正規化モデルは、前処理正規化前の文字情報と、前処理正規化後の文字情報との組合せを学習データとして生成される。例えば、前処理正規化モデルは、前処理正規化前の文字情報が入力された場合に、対応する前処理正規化後の文字情報が出力されるように学習処理が行われることにより、生成される。情報処理装置１００は、外部の情報処理装置から取得した前処理正規化モデルを用いてもよい。また、情報処理装置１００は、前処理正規化モデルを生成してもよい。

また、例えば、情報処理装置１００は、正規化前後の対応付けを示す一覧情報（前処理ルール情報群）を用いて、前処理正規化を行ってもよい。この場合、例えば、情報処理装置１００は、正規化判定モデルにより正規化の必要があると判定した場合、前処理ルール情報群からその文字情報に対応する前処理ルール情報を抽出し、その前処理ルール情報に対応する正規化（変換）を行う。例えば、情報処理装置１００は、文字情報「音楽を再生して」の正規化が必要と判定した場合、前処理ルール情報群から語尾が「〜して」である文字情報の場合、語尾を「〜する」に変換するという前処理ルール情報を抽出する。そして、情報処理装置１００は、抽出した前処理ルール情報を用いて、文字情報「音楽を再生して」を正規化する。この場合、情報処理装置１００は、前処理正規化が必要と判定された文字情報「音楽を再生して」を正規化された文字情報「音楽を再生する」に変換する。

［１−５．実施形態に係る端末装置の構成］
次に、実施形態に係る情報処理を実行する情報処理装置の一例である端末装置１０の構成について説明する。図１０は、本開示の実施形態に係る端末装置の構成例を示す図である。

図１０に示すように、端末装置１０は、通信部１１と、入力部１２と、出力部１３と、記憶部１４と、制御部１５と、センサ部１６と、表示部１７とを有する。

通信部１１は、例えば、ＮＩＣや通信回路等によって実現される。通信部１１は、ネットワークＮ（インターネット等）と有線又は無線で接続され、ネットワークＮを介して、情報処理装置１００等の他の装置等との間で情報の送受信を行う。

入力部１２は、各種入力を受け付ける。入力部１２は、センサ部１６による検知を入力として受け付ける。入力部１２は、ユーザの発話情報の入力を受け付ける。入力部１２は、ユーザの身体動作による入力を受け付ける。入力部１２は、ユーザのジェスチャや視線を入力として受け付ける。

入力部１２は、ユーザから各種操作が入力される。入力部１２は、音声を検知する機能を有するセンサ部１６により音を入力として受け付ける。入力部１２は、音声を検知するマイク（音センサ）により検知された音声情報を入力情報として受け付ける。入力部１２は、ユーザの発話による音声を入力情報として受け付ける。

また、入力部１２は、ユーザが利用する端末装置１０への操作（ユーザ操作）をユーザによる操作入力として受け付けてもよい。入力部１２は、通信部１１を介して、リモコン（リモートコントローラー：remote controller）を用いたユーザの操作に関する情報を受け付けてもよい。また、入力部１２は、端末装置１０に設けられたボタンや、端末装置１０に接続されたキーボードやマウスを有してもよい。

例えば、入力部１２は、リモコンやキーボードやマウスと同等の機能を実現できるタッチパネルを有してもよい。この場合、入力部１２は、表示部１７を介して各種情報が入力される。入力部１２は、各種センサにより実現されるタッチパネルの機能により、表示画面を介してユーザから各種操作を受け付ける。すなわち、入力部１２は、端末装置１０の表示部１７を介してユーザから各種操作を受け付ける。例えば、入力部１２は、端末装置１０の表示部１７を介してユーザの指定操作等の操作を受け付ける。例えば、入力部１２は、タッチパネルの機能によりユーザの操作を受け付ける受付部として機能する。この場合、入力部１２と受付部１５３とは一体であってもよい。なお、入力部１２によるユーザの操作の検知方式には、タブレット端末では主に静電容量方式が採用されるが、他の検知方式である抵抗膜方式、表面弾性波方式、赤外線方式、電磁誘導方式など、ユーザの操作を検知できタッチパネルの機能が実現できればどのような方式を採用してもよい。

例えば、入力部１２は、ユーザの発話を入力として受け付ける。入力部１２は、センサ部１６により検知されたユーザの発話を入力として受け付ける。入力部１２は、センサ部１６の音センサにより検知されたユーザの発話を入力として受け付ける。

出力部１３は、各種情報を出力する。出力部１３は、音声を出力する機能を有する。例えば、出力部１３は、音声を出力するスピーカーを有する。出力部１３は、実行部１５２による制御に応じて、各種情報を音声出力する。出力部１３は、ユーザに対して音声による情報の出力を行う。出力部１３は、表示部１７に表示される情報を音声により出力する。

記憶部１４は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４は、情報の表示に用いる各種情報を記憶する。

図１０に戻り、説明を続ける。制御部１５は、例えば、ＣＰＵやＭＰＵ等によって、端末装置１０内部に記憶されたプログラム（例えば、本開示に係る情報処理プログラム等の表示プログラム）がＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１５は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

図１０に示すように、制御部１５は、受信部１５１と、実行部１５２と、受付部１５３と、送信部１５４とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１５の内部構成は、図１０に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

受信部１５１は、各種情報を受信する。受信部１５１は、外部の情報処理装置から各種情報を受信する。受信部１５１は、情報処理装置１００等の他の情報処理装置から各種情報を受信する。

受信部１５１は、情報処理装置１００から機能（サービス）の実行を指示する情報を受信する。受信部１５１は、情報処理装置１００から各種機能（サービス）の実行指示を受信する。例えば、受信部１５１は、情報処理装置１００から機能（サービス）を指定する情報を機能の実行指示として受信する。受信部１５１は、コンテンツを受信する。受信部１５１は、情報処理装置１００から表示するコンテンツを受信する。

実行部１５２は、各種処理を実行する。実行部１５２は、各種処理の実行を決定する。実行部１５２は、外部の情報処理装置からの情報に基づいて、各種処理を実行する。実行部１５２は、情報処理装置１００からの情報に基づいて、各種処理を実行する。実行部１５２は、情報処理装置１００からの指示に応じて、各種処理を実行する。実行部１５２は、記憶部１４に記憶された情報に基づいて、各種処理を実行する。実行部１５２は、機能（サービス）を実行する。

実行部１５２は、各種出力を制御する。実行部１５２は、出力部１３による音声出力を制御する。実行部１５２は、各種表示を制御する。実行部１５２は、表示部１７の表示を制御する。実行部１５２は、受信部１５１による受信に応じて、表示部１７の表示を制御する。実行部１５２は、受信部１５１により受信された情報に基づいて、表示部１７の表示を制御する。実行部１５２は、受付部１５３により受け付けられた情報に基づいて、表示部１７の表示を制御する。実行部１５２は、受付部１５３による受付けに応じて、表示部１７の表示を制御する。

受付部１５３は、各種情報を受け付ける。受付部１５３は、入力部１２を介してユーザによる入力を受け付ける。受付部１５３は、ユーザによる発話を入力として受け付ける。受付部１５３は、ユーザによる操作を受け付ける。受付部１５３は、表示部１７により表示された情報に対するユーザの操作を受け付ける。受付部１５３は、ユーザによる文字入力を受け付ける。

送信部１５４は、外部の情報処理装置へ各種情報を送信する。例えば、送信部１５４は、情報処理装置１００等の他の情報処理装置へ各種情報を送信する。送信部１５４は、記憶部１４に記憶された情報を送信する。

送信部１５４は、情報処理装置１００等の他の情報処理装置からの情報に基づいて、各種情報を送信する。送信部１５４は、記憶部１４に記憶された情報に基づいて、各種情報を送信する。

送信部１５４は、センサ部１６により検知されたセンサ情報を情報処理装置１００へ送信する。送信部１５４は、センサ部１６の音センサにより検知されたユーザの発話情報を情報処理装置１００へ送信する。

送信部１５４は、ユーザにより入力された入力情報を情報処理装置１００へ送信する。送信部１５４は、ユーザにより音声入力された入力情報を情報処理装置１００へ送信する。送信部１５４は、ユーザの操作により入力された入力情報を情報処理装置１００へ送信する。送信部１５４は、第１言語によるユーザの発話情報を情報処理装置１００へ送信する。送信部１５４は、第１言語によるユーザの発話に対応する第１文字情報を情報処理装置１００へ送信する。

センサ部１６は、種々のセンサ情報を検知する。センサ部１６は、音を検知する音センサ（スピーカ）を有する。センサ部１６は、画像を撮像する撮像部としての機能を有する。センサ部１６は、画像センサの機能を有し、画像情報を検知する。センサ部１６は、画像を入力として受け付ける画像入力部として機能する。なお、センサ部１６は、上記に限らず、種々のセンサを有してもよい。センサ部１６は、位置センサ、加速度センサ、ジャイロセンサ、温度センサ、湿度センサ、照度センサ、圧力センサ、近接センサ、ニオイや汗や心拍や脈拍や脳波等の生体情報を受信のためのセンサ等の種々のセンサを有してもよい。また、センサ部１６における上記の各種情報を検知するセンサは共通のセンサであってもよいし、各々異なるセンサにより実現されてもよい。

表示部１７は、端末装置１０に設けられ各種情報を表示する。表示部１７は、例えば液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される。表示部１７は、情報処理装置１００から提供される情報を表示可能であれば、どのような手段により実現されてもよい。表示部１７は、実行部１５２による制御に応じて、各種情報を表示する。

表示部１７は、受信部１５１により受信された各種情報を表示する。表示部１７は、情報処理装置１００から受信した応答を表示する。表示部１７は、言語変換に関する情報を表示する。

［１−６．応答例］
ここで、図１１を用いて応答例を説明する。図１１は、本開示の実施形態に係る応答の一例を示す図である。図１１は、言語が認識できる形式の応答例を示す。

情報処理システム１は、入力言語と意味解析処理を行った言語が異なる場合、そのことをユーザに認識させる情報を出力してもよい。例えば、情報処理システム１は、入力言語を翻訳して、翻訳した情報を用いて意味解析処理したことがわかるように、応答の際に、入力時、解析時、出力時の３フェーズにて、どの言語で処理したかがわかる形式で出力する。

例えば、端末装置１０は、表示部１７に言語が認識できる形式の応答を表示する。図１１の例では、情報処理システム１は、入力言語（第１言語）がミャンマー語であり、意味解析を行った特定言語（第２言語）が日本語であり、出力言語（第１言語）がミャンマー語であることを示す情報を出力する。このように、情報処理システム１は、応答の際に、入力時、解析時、出力時の３フェーズにて、どの言語で処理したかがわかる形式で出力する。

［１−７．実施形態に係る情報処理の手順］
次に、図１２〜図１４を用いて、実施形態に係る各種情報処理の手順について説明する。

［１−７−１．情報処理装置に係る処理の手順］
まず、図１２を用いて、本開示の実施形態に係る情報処理装置に係る処理の流れについて説明する。図１２は、本開示の実施形態に係る情報処理装置の処理を示すフローチャートである。具体的には、図１２は、情報処理装置１００による情報処理の手順を示すフローチャートである。

図１２に示すように、情報処理装置１００は、第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換する（ステップＳ１０１）。そして、情報処理装置１００は、１以上の第２文字情報を用いて、意味解析処理を実行する（ステップＳ１０２）。例えば、情報処理装置１００は、正規化された第２文字情報を用いて、意味解析処理を実行する。

［１−７−２．情報処理システムに係る処理の手順］
次に、図１３を用いて、情報処理システムに係る具体的な処理の一例について説明する。図１３は、本開示の実施形態に係る情報処理システムの処理を示すフローチャートである。なお、以下では、情報処理システム１が処理を行う場合を一例として説明するが、図１３に示す処理は、情報処理システム１に含まれる情報処理装置１００及び端末装置１０のいずれの装置が行ってもよい。

図１３に示すように、情報処理システム１は、ユーザによる発話の音声情報を取得する（ステップＳ２０１）。例えば、情報処理システム１は、入力言語（第１言語）でのユーザによる発話の音声情報を取得する。

そして、情報処理システム１は、音声認識の処理を行う（ステップＳ２０２）。情報処理システム１は、ユーザによる発話の音声情報に対する音声認識の処理を行う。例えば、情報処理システム１は、音声認識により入力言語（第１言語）でのユーザによる発話のテキスト（文字情報）を発話情報として取得する。例えば、情報処理システム１は、言語識別（音声認識）が可能な言語かを判定し、可能な場合、音声認識の処理を行う。なお、情報処理システム１は、言語識別（音声認識）が可能な言語ではない場合、処理を終了してもよい。この場合、情報処理システム１は、対応可能な言語ではないことをユーザに通知してもよい。例えば、情報処理システム１は、発話情報を第１文字情報として用いる。なお、情報処理システム１は、発話情報の正規化が必要な場合、発話情報を第１文字情報に正規化してもよい。

そして、情報処理システム１は、ユーザによる発話に対応する第１言語が特定言語かどうかを判定する（ステップＳ２０３）。情報処理システム１は、第１言語が特定言語ではない場合（ステップＳ２０３：Ｎｏ）、特定言語へ翻訳する（ステップＳ２０４）。情報処理システム１は、言語間対応表を用いて特定言語へ翻訳する。情報処理システム１は、言語間対応表を用いて特定言語を選択する。情報処理システム１は、第１言語が特定言語ではない場合、特定言語へ翻訳した翻訳テキストを生成する。例えば、情報処理システム１は、第１言語が特定言語ではない場合、第１言語の第１文字情報を特定言語である第２言語の第２文字情報（翻訳テキスト）へ変換する。

そして、情報処理システム１は、正規化判定を行う（ステップＳ２０５）。情報処理システム１は、翻訳テキストの正規化が必要と判定した場合（ステップＳ２０５：Ｙｅｓ）、第２文字情報の正規化（後処理正規化）を行う（ステップＳ２０６）。情報処理システム１は、後処理正規化により、正規化された第２文字情報（正規化テキスト）を生成する。例えば、情報処理システム１は、後処理正規化により、意味解析処理に対応する形式に文字情報の形式を正規化する。情報処理システム１は、第２文字情報が文語調である場合、第２文字情報を口語調に変換（正規化）する処理を実行する。

そして、情報処理システム１は、発話意味解析処理を行う（ステップＳ２０７）。この場合、例えば、情報処理システム１は、後処理正規化により正規化された第２文字情報（正規化テキスト）を用いて、発話意味解析処理を行う。

また、情報処理システム１は、翻訳テキストの正規化が不要と判定した場合（ステップＳ２０５：Ｎｏ）、第２文字情報の正規化（後処理正規化）を行わずに、ステップＳ２０７の処理を行う。この場合、例えば、情報処理システム１は、翻訳テキストを用いて、発話意味解析処理を行う。

また、情報処理システム１は、第１言語が特定言語である場合（ステップＳ２０３：Ｙｅｓ）、翻訳を行うことなく、ステップＳ２０７の処理を行う。この場合、例えば、情報処理システム１は、第１文字情報を用いて、発話意味解析処理を行う。

例えば、情報処理システム１は、ステップＳ２０７の発話意味解析処理により、特定言語での意味フレームの情報を生成する。そして、情報処理システム１は、スロット逆変換を行う（ステップＳ２０８）。情報処理システム１は、意味フレーム中のスロット値を入力言語（第１言語）のスロット値に変換する。情報処理システム１は、特定言語（第２言語）のスロット値を入力言語（第１言語）のスロット値に変換する。なお、情報処理システム１は、第１言語が特定言語である場合など、逆変換が不要の場合はステップＳ２０８を行わなくてもよい。

そして、情報処理システム１は、応答生成を行う（ステップＳ２０９）。情報処理システム１は、画像や音やテキストなど、出力態様に応じた情報の生成を行う。そして、情報処理システム１は、生成した情報を出力する（ステップＳ２１０）。情報処理システム１は、画像やテキストを表示したり、音を出力したりする。

［１−７−３．情報処理システムに係る処理の他の手順］
次に、図１４を用いて、情報処理システムに係る具体的な処理の他の一例について説明する。図１４は、本開示の実施形態に係る情報処理システムの処理を示すフローチャートである。なお、以下では、情報処理システム１が処理を行う場合を一例として説明するが、図１４に示す処理は、情報処理システム１に含まれる情報処理装置１００及び端末装置１０のいずれの装置が行ってもよい。図１３と同様の点については適宜説明を省略する。

図１４に示すように、情報処理システム１は、ユーザによる発話の音声情報を取得する（ステップＳ３０１）。例えば、情報処理システム１は、入力言語（第１言語）でのユーザによる発話の音声情報を取得する。

そして、情報処理システム１は、音声認識の処理を行う（ステップＳ３０２）。情報処理システム１は、ユーザによる発話の音声情報に対する音声認識の処理を行う。例えば、情報処理システム１は、音声認識により入力言語（第１言語）でのユーザによる発話のテキスト（発話情報）を発話情報として取得する。

そして、情報処理システム１は、対象外言語かを判定する（ステップＳ３０３）。例えば、情報処理システム１は、言語識別（音声認識）できない言語を対象外言語であると判定する。

情報処理システム１は、対象外言語ではないと判定した場合（ステップＳ３０３：Ｎｏ）、ユーザによる発話に対応する第１言語が特定言語かどうかを判定する（ステップＳ３０４）。例えば、情報処理システム１は、言語識別（音声認識）が可能である判定した場合、入力言語（第１言語）を対象言語と判定し、第１言語が特定言語かどうかを判定する。

情報処理システム１は、第１言語が特定言語ではない場合（ステップＳ３０４：Ｎｏ）、正規化判定を行う（ステップＳ３０５）。情報処理システム１は、テキスト（発話情報）の正規化が必要と判定した場合（ステップＳ３０５：Ｙｅｓ）、テキスト（発話情報）の正規化（前処理正規化）を行う（ステップＳ３０６）。情報処理システム１は、前処理正規化により、正規化された第１文字情報（正規化テキスト）を生成する。例えば、情報処理システム１は、前処理正規化により、翻訳処理に対応する形式に文字情報の形式を正規化する。情報処理システム１は、ユーザの発話情報が口語調である場合、ユーザの発話情報を文語調に変換（正規化）する処理を実行する。

そして、情報処理システム１は、特定言語へ翻訳する（ステップＳ３０７）。この場合、例えば、情報処理システム１は、前処理正規化により正規化された第１文字情報（正規化テキスト）を、特定言語へ翻訳する。情報処理システム１は、言語間対応表を用いて特定言語へ翻訳する。情報処理システム１は、言語間対応表を用いて特定言語を選択する。

また、情報処理システム１は、テキスト（発話情報）の正規化が不要と判定した場合（ステップＳ３０５：Ｎｏ）、テキスト（発話情報）の正規化（前処理正規化）を行わずに、ステップＳ３０７の処理を行う。この場合、例えば、情報処理システム１は、テキスト（発話情報）を第１文字情報として、特定言語へ翻訳する。このように、情報処理システム１は、第１言語が特定言語ではない場合、特定言語へ翻訳した翻訳テキストを生成する。例えば、情報処理システム１は、第１言語が特定言語ではない場合、第１言語の第１文字情報を特定言語である第２言語の第２文字情報（翻訳テキスト）へ変換する。

そして、情報処理システム１は、品質推定を行う（ステップＳ３０８）。例えば、情報処理システム１は、特定言語へ翻訳された第２文字情報（翻訳テキスト）の品質を推定する。例えば、情報処理システム１は、適宜の方法により第２文字情報（翻訳テキスト）の品質推定翻訳精度（品質スコア）を算出し、その品質推定翻訳精度（品質スコア）と閾値（例えば０．７５等）と比較する。そして、情報処理システム１は、第２文字情報の品質推定翻訳精度（品質スコア）が閾値以上であれば、その第２文字情報の品質が高い（ハイスコアである）と判定し、第２文字情報の品質推定翻訳精度（品質スコア）が閾値未満であれば、その第２文字情報の品質が低い（ロースコアである）と判定する。

情報処理システム１は、品質が低いと推定（判定）した場合（ステップＳ３０８：ＬＯＷ）、人手での編集が所定の時間内に完了するか判定する（ステップＳ３０９）。

情報処理システム１は、人手での編集が所定の時間内に完了すると判定した場合（ステップＳ３０９：ＳＨＯＲＴＴＩＭＥ）、人手により編集された第２文字情報を用いてＳ３１１の後処理正規化を行う。

また、情報処理システム１は、品質が高いと推定（判定）した場合（ステップＳ３０８：ＨＩＧＨ）、正規化判定を行う（ステップＳ３１０）。情報処理システム１は、翻訳テキストの正規化が必要と判定した場合（ステップＳ３１０：Ｙｅｓ）、第２文字情報の正規化（後処理正規化）を行う（ステップＳ３１１）。情報処理システム１は、後処理正規化により、正規化された第２文字情報（正規化テキスト）を生成する。そして、情報処理システム１は、発話意味解析処理を行う（ステップＳ３１２）。この場合、例えば、情報処理システム１は、後処理正規化により正規化された第２文字情報（正規化テキスト）を用いて、発話意味解析処理を行う。

また、情報処理システム１は、翻訳テキストの正規化が不要と判定した場合（ステップＳ３１０：Ｎｏ）、第２文字情報の正規化（後処理正規化）を行わずに、ステップＳ３１２の処理を行う。この場合、例えば、情報処理システム１は、翻訳テキストを用いて、発話意味解析処理を行う。例えば、情報処理システム１は、ステップＳ３１２の発話意味解析処理により、全言語（特定言語）での意味フレームの情報を生成する。

また、情報処理システム１は、第１言語が特定言語である場合（ステップＳ３０４：Ｙｅｓ）、翻訳を行うことなく、ステップＳ３１２の処理を行う。この場合、例えば、情報処理システム１は、第１文字情報を用いて、発話意味解析処理を行う。例えば、情報処理システム１は、ステップＳ３１２の発話意味解析処理により、第１言語（特定言語）での意味フレームの情報を生成する。

そして、情報処理システム１は、特定言語の選択を行う（ステップＳ３１３）。例えば、情報処理システム１は、ステップＳ３１２の発話意味解析処理が行われた言語（特定言語）が複数ある場合、その後の処理に用いる特定言語を選択する。なお、情報処理システム１は、ステップＳ３１２の発話意味解析処理が行われた言語（特定言語）が１つである場合、その言語をその後の処理に用いる特定言語として選択する。

そして、情報処理システム１は、スロット逆変換を行う（ステップＳ３１４）。情報処理システム１は、意味フレーム中のスロット値を入力言語（第１言語）のスロット値に変換する。情報処理システム１は、特定言語（第２言語）のスロット値を入力言語（第１言語）のスロット値に変換する。なお、情報処理システム１は、第１言語が特定言語である場合など、逆変換が不要の場合はステップＳ３１４を行わなくてもよい。

そして、情報処理システム１は、応答生成を行う（ステップＳ３１５）。情報処理システム１は、画像や音やテキストなど、出力態様に応じた情報の生成を行う。

また、情報処理システム１は、対象外言語であると判定した場合（ステップＳ３０３：Ｙｅｓ）、処理を棄却する（ステップＳ３１６）。例えば、情報処理システム１は、対象外言語であると判定した場合、処理を中断する。そして、情報処理システム１は、中断理由を用いて、ステップＳ３１５の応答生成を行う。例えば、情報処理システム１は、中断理由を用いて「対象外の言語のため処理を中断します」といった応答生成を行う。

また、情報処理システム１は、人手での編集が所定の時間内に完了しないと判定した場合（ステップＳ３０９：ＬＯＮＧＴＩＭＥ）、処理を棄却する（ステップＳ３１６）。例えば、情報処理システム１は、人手での編集が所定の時間内に完了しないと判定した場合、処理を中断する。そして、情報処理システム１は、中断理由を用いて、ステップＳ３１５の応答生成を行う。例えば、情報処理システム１は、中断理由を用いて「翻訳に時間を要するため処理を中断します」といった応答生成を行う。

そして、情報処理システム１は、生成した情報を出力する（ステップＳ３１７）。情報処理システム１は、画像やテキストを表示したり、音を出力したりする。

［１−８．情報処理システムによる処理の概念図］
ここで、図１５を用いて、情報処理システム１における各機能やハードウェア構成や処理を概念的に示す。図１５は、情報処理システムによる処理の一例を示す概念図である。図１５に示すシステム処理ＰＳ１は、情報処理システム１により実現される処理の一例を示す。例えば、図１５は、情報処理システム１の構成概略図を示す。図１５中の正規化判定、前処理正規化、後処理正規化、応答生成、特定言語翻訳器、言語間対応表、スロット逆変換が意味解析の多言語化を実現する上で重要なポイントとなる、例えば、正規化判定、前処理正規化、後処理正規化、応答生成は意味解析の性能を担保する上で非常に重要な部分となる。

図１５に示すシステム処理ＰＳ１は、ユーザの発話が入力されてから、応答が出力されるまでの各処理や、各処理を実現するための機能やハードウェア構成を概念的に示す図である。例えば、システム処理ＰＳ１に示す各処理は、情報処理装置１００により実行される。また、例えば、システム処理ＰＳ１中の特定言語翻訳器は、情報処理装置１００の変換部１３２の機能により実現される。例えば、システム処理ＰＳ１中の発話意味解析器は、情報処理装置１００の実行部１３３の機能により実現される。なお、以下では、情報処理システム１が処理を行う場合を一例として説明するが、図１５に示す処理は、情報処理システム１に含まれる情報処理装置１００及び端末装置１０のいずれの装置が行ってもよい。図１３や図１４と同様の点については適宜説明を省略する。

システム処理ＰＳ１に示すように、情報処理システム１は、ユーザによる発話に対して言語識別の処理を行う。そして、情報処理システム１は、入力された発話の言語（入力言語）について言語識別ができた場合、その入力言語（第１言語）が特定言語であるかを判定する。

情報処理システム１は、入力言語（第１言語）が特定言語である場合、第１言語を対象として発話意味解析器により意味解析処理を行う。そして、情報処理システム１は、特定言語の意味解析処理の結果を基にスコアリング等の処理を行うが、この点は後述する。

一方、情報処理システム１は、入力言語（第１言語）が特定言語ではない場合、第１言語を対象として正規化判定を行う。

情報処理システム１は、入力変更の必要があると判定した場合、テキスト（発話情報）の正規化（前処理正規化）を行う。例えば、情報処理システム１は、第１言語によるユーザの発話に対応するテキスト（発話情報）の正規化が必要と判定した場合、テキスト（発話情報）の正規化（前処理正規化）を行う。

そして、情報処理システム１は、言語間対応表を用いて、特定言語翻訳器により特定言語へ翻訳する。例えば、情報処理システム１は、前処理正規化により正規化された第１文字情報を、特定言語翻訳器により特定言語（第２言語）へ翻訳する。

また、情報処理システム１は、入力変更の必要がないと判定した場合、テキスト（発話情報）の正規化（前処理正規化）を行わずに、テキスト（発話情報）を第１文字情報として、特定言語へ翻訳する。例えば、情報処理システム１は、テキスト（発話情報）の正規化が不要と判定した場合、言語間対応表を用いて、テキスト（発話情報）を特定言語翻訳器により特定言語（第２言語）へ翻訳する。

そして、情報処理システム１は、翻訳結果の品質推定を行う。例えば、情報処理システム１は、各特定言語へ翻訳された各第２文字情報の品質を推定する。

また、情報処理システム１は、少なくとも１つの言語（特定言語）がハイスコアであると判定した場合、ハイスコアである特定言語を対象に正規化判定を行う。情報処理システム１は、各特定言語へ翻訳された各第２文字情報のうち、少なくとも１つの品質が高いと判定した場合、品質が高い第２文字情報を対象として正規化判定を行う。この場合、ロースコアであると判定された言語（特定言語）がある場合、情報処理システム１は、その言語については処理を中断することを示す応答を生成する。すなわち、情報処理システム１は、各特定言語へ翻訳された各第２文字情報のうち、品質が低いと判定した第２文字情報については、処理を中断することを示す応答を生成する。この場合、情報処理システム１は、「ＸＸ言語からＹＹ言語への翻訳精度が低いため中断します」といった応答生成を行う。例えば、情報処理システム１は、「入力言語で韓国語から意味解析用の英語への翻訳への翻訳精度が低いため中断します」といった応答生成を行う。

上述のように、情報処理システム１は、ハイスコアである特定言語（例えば翻訳の品質が高い第２文字情報）について正規化判定を行う。

情報処理システム１は、特定言語について出力変更の必要があると判定した場合、その特定言語の第２文字情報の正規化（後処理正規化）を行う。例えば、情報処理システム１は、第２文字情報の正規化が必要と判定した場合、その第２文字情報の正規化（後処理正規化）を行う。そして、情報処理システム１は、正規化された第２文字情報を対象として発話意味解析器により意味解析処理を行う。また、情報処理システム１は、出力変更の必要がないと判定した場合、その特定言語の第２文字情報に正規化処理を行わない。例えば、情報処理システム１は、第２文字情報の正規化が必要ないと判定した場合、その第２文字情報を対象として発話意味解析器により意味解析処理を行う。これにより、情報処理システム１は、各特定言語について意味解析処理を行う。そして、情報処理システム１は、特定言語ごとの意味解析処理の結果を基にスコアリング等の処理を行うが、この点は後述する。

情報処理システム１は、全ての言語（特定言語）がロースコアであると判定した場合、後編集に関する処理を行う。例えば、情報処理システム１は、全ての第２文字情報の品質が低いと判定した場合、後編集に関する処理を行う。例えば、情報処理システム１は、全ての言語（特定言語）がロースコアであると判定し、ユーザの発話に対する処理について即時性が必要ない場合、翻訳結果を人手で編集させる処理を実行する。情報処理システム１は、クラウドワーカに人手での編集を行わせる。例えば、情報処理システム１は、第１文字情報とその翻訳結果である第２文字情報とをクラウドワーカが利用するデバイス（端末装置１０等）に送信することにより、クラウドワーカに翻訳結果を人手で編集させる処理を行わせる。

また、情報処理システム１は、後編集の処理時間が長い（ロングタイム）である場合、処理を棄却する。例えば、情報処理システム１は、クラウドワーカ等による人手での編集が所定の時間内に完了しない場合、処理を棄却する。この場合、情報処理システム１は、「ＸＸ言語からＹＹ言語への翻訳時間が長いため、中断します」といった応答生成を行う。例えば、情報処理システム１は、「入力言語のオランダ語から意味解析用の日本語への翻訳時間が長いため、中断します」といった応答生成を行う。

また、情報処理システム１は、後編集の処理時間が短い（ショートタイム）である場合、人手により編集された第２文字情報を用いて正規化判定を行う。情報処理システム１は、正規化の必要があると判定した場合、人手により編集された第２文字情報の正規化（後処理正規化）を行い、正規化された第２文字情報を対象として発話意味解析器により意味解析処理を行う。また、情報処理システム１は、正規化の必要がないと判定した場合、人手により編集された第２文字情報を対象として発話意味解析器により意味解析処理を行う。

上述のように、情報処理システム１は、各特定言語について、発話意味解析器により意味解析処理を行うことにより、特定言語ごとの出力を得る。例えば、情報処理システム１は、各特定言語について意味解析の結果を得る。例えば、情報処理システム１は、意味解析処理により各特定言語の意味フレームの情報を生成する。例えば、情報処理システム１は、意味解析処理により、ユーザの発話に対応するＤｏｍａｉｎ−Ｇｏａｌ（ドメインゴール）が特定され、スロット値が設定された意味フレームの情報を生成する。

そして、情報処理システム１は、各特定言語のスコアリングを行う。情報処理システム１は、各特定言語の意味解析の精度を示すスコア（意味解析スコア）を算出する。情報処理システム１は、意味解析処理において特定したドメインゴールの確信度（精度）を示す意味解析スコアを算出する。情報処理システム１は、種々の技術を適宜用いて、意味解析スコアを算出する。

そして、情報処理システム１は、特定言語の選択を行う。例えば、情報処理システム１は、発話意味解析処理が行われた言語（特定言語）が複数ある場合、その後の処理に用いる特定言語を選択する。なお、情報処理システム１は、発話意味解析処理が行われた言語（特定言語）が１つである場合、その言語をその後の処理に用いる特定言語として選択する。

そして、情報処理システム１は、知識ＤＢを用いてスロット逆変換を行う。情報処理システム１は、逆翻訳または多言語辞書を利用してスロット逆変換を行う。例えば、情報処理システム１は、外部の知識情報提供サーバや知識情報記憶部１２５等の知識ＤＢを用いてスロット逆変換を行う。例えば、情報処理システム１は、意味フレーム中の特定言語（第２言語）のスロット値を入力言語（第１言語）のスロット値に逆変換する。なお、情報処理システム１は、第１言語が特定言語である場合など、逆変換が不要の場合はスロット逆変換の処理を行わなくてもよい。

そして、情報処理システム１は、応答生成を行う。情報処理システム１は、意味解析処理の結果に対応する情報の生成を行う。情報処理システム１は、意味フレームのＤｏｍａｉｎ−Ｇｏａｌ（ドメインゴール）やスロット値の情報を基に、応答する情報の生成を行う。

［１−９．処理の詳細等］
ここから、図１３〜図１５等で説明した各種処理の詳細について説明する。

［１−９−１．言語識別］
まず、上述した言語識別について記載する。言語識別とは、複数の入力言語を想定し、自動的に発話者の言語を特定する公知の技術であり、近年では音声認識処理と同時に用いられることが多い。また、言語識別は、音声認識の音響モデルから判断する場合と、言語モデルから判断する場合に大きく分かれる。前者は言語識別にかかる時間（遅延）を少なくすることができる点が利点であり、後者はより正確な言語識別が可能となり、遅延と精度のトレードオフの関係である。情報処理システム１は、音声認識の音響モデルから判断する処理と、言語モデルから判断する処理とのいずれにより、言語識別を行ってもよい。

また、入力言語が翻訳器の対応外の言語や、意味解析器の特定言語外の場合、処理を中断し、応答に中断理由を含める。例えば、情報処理システム１は、「ＺＺ言語は翻訳および意味解析で対応しておりません」などと言った出力を行う。

［１−９−２．前処理正規化］
次に、前処理正規化について記載する。上述したように、翻訳処理（翻訳器）と意味解析処理（意味解析器）の想定する発話表現が違うためギャップがある。スマートスピーカのようなデバイスに操作を依頼するケースが想定され、ユーザが発話する表現は、発話意味解析器の想定する発話表現となり、その表現が翻訳器に入力されることが想定される。そのため、翻訳処理（翻訳器）が想定しない表現となるため、十分な精度を保つことができない可能性がある。そこで、情報処理システム１は、翻訳器が想定している表現に前処理として正規化する。例えば、「音楽をかけて」を「音楽を再生してください」のように、話し言葉の発話依頼調の表現から、書き言葉の文語体に変換する。例えば、情報処理システム１は、図９に示すように正規化判定モジュール（正規化判定モデルＭＤ１）に通して、正規化判定モデルＭＤ１が出力する変換フラグ０（発話調）の場合に、前処理正規化を実行してもよい。

［１−９−３．複数言語への翻訳および意味解析処理へ拡張］
次に、複数言語への翻訳および意味解析処理へ拡張について、図１６を用いて説明する。図１６は、意味解析に関するスコアの一例を示す図である。図１の例では、言語間対応表から特定言語を選択していたが、全ての特定言語（例えば、Ｎ言語数）を対象に処理を行ってもよい。この場合、情報処理システム１は、選択することなく、全ての特定言語（Ｎ言語数）に翻訳し、Ｎ言語数すべてに対して、意味解析処理を実行する。

この場合、意味解析の結果はＮ言語数あるため、情報処理システム１は、Ｎ言語数の中から一つの言語を選択する。例えば、情報処理システム１は、言語ごとの意味解析結果のスコアから最大のスコアの言語を選択する。図１６の例では、スコア一覧ＳＣ１に示すように、ドイツ語の意味解析スコア「０．９０」が最大であるため、情報処理システム１は、ドイツ語を特定言語として選択する。

［１−９−４．品質推定］
次に、品質推定について、図１７を用いて説明する。図１７は、翻訳品質に関するスコアの一例を示す図である。品質推定は、翻訳器の出力がどの程度の精度であるかを推定する処理（モジュール）である。精度が低い場合、意味解析処理しても所望の結果を得ることが難しく、意味解析が別のドメインゴールを推定することによる、ユーザにとって不利益になることを避けるために、翻訳結果の段階で処理を中止させるためのものである。つまり、情報処理システム１は、品質推定のスコア値（品質スコア）が一定以上高いもの、通常の意味解析処理を行い、一定以下のものは処理を中断して、中断理由を応答に含める。図１７の例では、スコア一覧ＳＣ２に示すように、情報処理システム１は、閾値「０．７５」以上の言語である英語、フランス語及びドイツ語の３つの言語は、通常の意味解析処理を行い、その他の言語は処理を中断して、中断理由を応答に含める。

例えば、テキスト表示や音声応答の場合、情報処理システム１は、「オランダ語から日本語への翻訳精度が低いため、処理を中断します」などの出力を行う。これにより、ユーザは、どの言語が翻訳処理を正常にできなかったことがわかる。なお、情報処理システム１は、エラー音や、識別可能な色をデバイスで表示するなど、ユーザが認知可能であれば、種々の表現形式により出力（通知）を行ってもよい。

また、情報処理システム１は、品質推定と、上述した複数言語への翻訳および意味解析処理へ拡張とを組み合わせてもよい。例えば、情報処理システム１は、すべての特定言語ごとに品質推定のスコア値（品質スコア）を算出し、どれか一つでも一定以上の値なら、一定以上の特定言語すべて意味解析処理を実行する。一方、情報処理システム１は、すべての特定言語が一定以下の値（品質スコア）である場合は、処理を中断して中断理由を応答に含める。例えば、情報処理システム１は、「処理可能な言語へ翻訳ですべて精度が低いため、処理を中断します」などの出力を行う。

［１−９−５．クラウドワーカ］
次に、クラウドワーカについて説明する。品質推定追加の延長として、情報処理システム１は、すべての特定言語の翻訳結果が一定以下の場合、クラウドワーカ（翻訳編集者）により、人手による翻訳結果を修正する処理（後編集）を行わせることも可能である。ただし、人手編集のため、処理時間がかかるため、この処理は即時性が要求されない用途を想定される。そのため、一定以上の時間を経過しても処理が終わらない場合は、情報処理システム１は、処理を中断して応答に中断理由を含める。例えば、情報処理システム１は、「ヒンディー語から日本語への人手翻訳の時間が長いため、中断します」などの出力を行う。また、情報処理システム１は、ドメインゴールによって、一定以上の時間を調整してもよい。

［１−９−６．翻訳精度・時間の調整］
情報処理システム１は、閾値等の種々の値を変更してもよい。例えば、情報処理システム１は、一定以上の翻訳精度や待ち時間を、システムのデフォルト値以外に、ユーザが自由に設定させてもよい。ユーザによっては品質が高いものだけを得たい場合は精度の閾値は高く設定し、時間がかかっても結果が欲しい場合は、待ち時間を長く設定することで、自由にカスタイマイズすることが可能であり、ユーザごとに最適化することが可能となる。

［１−１０．実験結果（ドメインゴール判定例）］
次に、図２０を用いて実験結果について説明する。図２０は、ドメインゴール判定の結果の一例を示す図である。

縦軸方向の精度は、入力に対して正しくドメインゴールが判定された割合を示す。また横軸方向の「Ｗｅａｔｈｅｒ」、「Ｍｕｓｉｃ」、「Ｄｅｖｉｃｅ」は、それぞれ対象となるドメインゴールを示す。例えば、「Ｗｅａｔｈｅｒ」は、天気に関するドメインゴールを示す。また、「Ｍｕｓｉｃ」は、音楽に関するドメインゴールを示す。「Ｄｅｖｉｃｅ」は、機器調整に関するドメインゴールを示す。

「Ｗｅａｔｈｅｒ」、「Ｍｕｓｉｃ」、「Ｄｅｖｉｃｅ」の各々の左端の縦バーは、ある言語（言語Ｘ）を第１言語とした場合に、各ドメインゴールとして正しく判定された割合（精度）を示す。すなわち、結果ＲＳ１に対応するハッチングで示す縦バーは、ある言語（言語Ｘ）を第１言語とした場合に、各ドメインゴールとして正しく判定された割合（精度）を示す。図２０に示す結果では、ある言語（言語Ｘ）を第１言語とした場合、３つとも精度が０．９０以上となる。

また、「Ｗｅａｔｈｅｒ」、「Ｍｕｓｉｃ」、「Ｄｅｖｉｃｅ」の各々の中央の縦バーは、ある言語（言語Ｘ）を第２言語とし、翻訳のみを行った場合に、各ドメインゴールとして正しく判定された割合（精度）を示す。すなわち、結果ＲＳ２に対応するハッチングで示す縦バーは、ある言語（言語Ｘ）を第２言語とし、翻訳のみを行った場合に、各ドメインゴールとして正しく判定された割合（精度）を示す。例えば、「Ｗｅａｔｈｅｒ」、「Ｍｕｓｉｃ」、「Ｄｅｖｉｃｅ」の各々の中央の縦バーは、他の言語（言語Ｙ）から言語Ｘに翻訳された場合に、各ドメインゴールとして正しく判定された割合（精度）を示す。図２０に示す結果では、ある言語（言語Ｘ）を第２言語として翻訳のみを行った場合、３つとも精度が０．９０未満となる。

また、「Ｗｅａｔｈｅｒ」、「Ｍｕｓｉｃ」、「Ｄｅｖｉｃｅ」の各々の右の縦バーは、ある言語（言語Ｘ）を第２言語とし、翻訳に加えて上述した正規化処理を行った場合に、各ドメインゴールとして正しく判定された割合（精度）を示す。すなわち、結果ＲＳ３に対応するハッチングで示す縦バーは、ある言語（言語Ｘ）を第２言語とし、翻訳に加えて上述した正規化処理を行った場合に、各ドメインゴールとして正しく判定された割合（精度）を示す。例えば、「Ｗｅａｔｈｅｒ」、「Ｍｕｓｉｃ」、「Ｄｅｖｉｃｅ」の各々の中央の縦バーは、他の言語（言語Ｙ）から言語Ｘに翻訳され、正規化処理を行われた場合に、各ドメインゴールとして正しく判定された割合（精度）を示す。図２０に示す結果では、ある言語（言語Ｘ）を第２言語とし、翻訳に加えて上述した正規化処理を行った場合、３つとも精度が０．９０以上となる。このように、翻訳に加えて上述した正規化処理を行うことである言語（言語Ｘ）を第１言語とした場合と同等の精度を実現することができる。

［２．その他の実施形態］
上述した各実施形態に係る処理は、上記各実施形態や変形例以外にも種々の異なる形態（変形例）にて実施されてよい。

［２−１．クライアント側で意味解析処理等を行う構成例］
実施形態においては、システム構成の一例として、情報処理装置１００が変換処理や意味解析処や逆変換理等を行う場合を示したが、端末装置１０が変換処理や意味解析処や逆変換理等を行ってもよい。すなわち、クライアント側の装置である端末装置１０が上述した変換処理や意味解析処や逆変換理等を行う情報処理装置であってもよい。このように、情報処理システム１のシステム構成は、サーバ側の装置である情報処理装置１００が変換処理や意味解析処や逆変換理等を行う構成に限らず、クライアント側の装置である端末装置１０が上述した変換処理や意味解析処や逆変換理等を行う構成であってもよい。

端末装置１０が上述した変換処理や意味解析処や逆変換理等を行う情報処理装置である場合、情報処理システム１では、クライアント側（端末装置１０）で翻訳や意味解析や逆変換を行う。そして、サーバ側（情報処理装置１００）は、その意味解析結果や逆変換結果の情報を端末装置１０から取得して、各種の処理を行う。この場合、端末装置１０の実行部１５２は、情報処理装置１００の実行部１３３と同様の機能を有してもよい。また、端末装置１０は、上述した変換部１３２と同様の機能を実現する変換部や、逆変換部１３４と同様の機能を実現する逆変換部を有してもよい。また、この場合、情報処理装置１００は、変換部１３２や逆変換部１３４を有しなくてもよい。

また、情報処理システム１は、クライアント側（端末装置１０）で発話の意味解析までを行い、サーバ側（情報処理装置１００）で逆変換を行うシステム構成であってもよい。この場合、クライアント側の装置である端末装置１０が上述した変換処理や意味解析処理を行う情報処理装置であり、サーバ側の装置である情報処理装置１００が上述した逆変換処理を行う情報処理装置であってもよい。この場合、端末装置１０の変換部や実行部１５２が変換処理や意味解析処理を行い、情報処理装置１００の逆変換部１３４が逆変換処理を行う。

なお、上記は一例であり、情報処理システム１においては、各処理をいずれの装置が行ってもよい。このように、情報処理システム１は、各処理について、クライアント側の装置（端末装置１０）及びサーバ側の装置（情報処理装置１００）のいずれが行うシステム構成であってもよい。

［２−２．その他の構成例］
なお、上記の例では、情報処理装置１００と端末装置１０とが別体である場合を示したが、これらの装置は一体であってもよい。

［２−３．その他］
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

［３．本開示に係る効果］
上述のように、本開示に係る情報処理装置（実施形態では情報処理装置１００）は、変換部（実施形態では変換部１３２）と、実行部（実施形態では実行部１３３）とを備える。変換部は、第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換する。実行部は、意味解析が処理に対応する形式に１以上の第２文字情報を正規化し、正規化された１以上の第２文字情報を用いて、意味解析処理を実行する。

このように、本開示に係る情報処理装置は、第１言語の第１文字情報を、意味解析処理が実行可能な第２言語の第２文字情報に変換し、正規化された第２文字情報を用いて意味解析処理を実行することで、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、本開示に係る情報処理装置は、逆変換部（実施形態では逆変換部１３４）を備える。逆変換部は、１以上の第２言語の各々に対応する意味解析処理の結果を第１言語に変換する。このように、情報処理装置は、意味解析処理の結果を第１言語に変換することで、意味解析処理が実行できる言語を介して意味解析をした後に元の言語（第１言語）に再度変換することで、意味解析処理が実行できない言語についても意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、逆変換部は、意味解析処理の結果のうち一部を第１言語に変換する。このように、情報処理装置は、意味解析処理の結果のうち一部を第１言語に変換することで、必要な情報のみを元の言語（第１言語）に再度変換して、意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、逆変換部は、意味解析処理の結果のうちスロット値を第１言語に変換する。このように、情報処理装置は、意味解析処理の結果のうちスロット値を第１言語に変換することで、処理を行うために元の言語（第１言語）で必要な情報（スロット値）のみを元の言語（第１言語）に再度変換して、意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、変換部は、第１文字情報を、一の第２言語に対応する一の第２文字情報に変換する。実行部は、一の第２文字情報に対して意味解析処理を実行する。逆変換部は、一の第２言語に対する意味解析処理の結果を第１言語に変換する。このように、情報処理装置は、一の第２言語を対象として処理をすることにより、意味解析処理が実行できない言語についても効率的に意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、変換部は、複数の第２言語のうち所定の基準に基づいて選択された一の第２言語に対応する一の第２文字情報に、第１文字情報を変換する。このように、情報処理装置は、複数の第２言語のうち所定の基準に基づいて一の第２言語を選択することで、意味解析処理が実行できない言語についても効率的に意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、変換部は、変換に関する言語の対応付けを示す言語間対応表を用いて、第１言語に対応付けられた第２言語を、一の第２言語として第１文字情報を変換する。このように、情報処理装置は、変換に関する言語の対応付けを示す言語間対応表を用いて、第１言語に対応付けられた第２言語に変換することで、意味解析処理が実行できない言語についても効率的に意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、変換部は、第１文字情報を、複数の第２言語の各々に対応する複数の第２文字情報に変換する。実行部は、複数の第２文字情報を用いて、意味解析処理を実行する。逆変換部は、複数の第２言語のうち、所定の条件を満たす第２言語に対する意味解析処理の結果を第１言語に変換する。このように、情報処理装置は、複数の第２言語を対象として処理をすることにより、例えば翻訳や意味解析の品質が高い第２言語を選択することができ、意味解析処理が実行できない言語についても精度の良い意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、逆変換部は、複数の第２言語のうち、意味解析処理のスコアが所定の閾値以上である第２言語に対する意味解析処理の結果を第１言語に変換する。このように、情報処理装置は、意味解析処理のスコアが所定の閾値以上の第２言語を対象とすることで、意味解析処理が実行できない言語についても精度の良い意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、逆変換部は、複数の第２言語の全てに対する意味解析処理の結果を第１言語に変換する。このように、情報処理装置は、複数の第２言語の全てを対象として逆変換を行い、その結果を用いることで、意味解析処理が実行できない言語についても精度の良い意味解析の情報を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、実行部は、１以上の第２文字情報のうち正規化が不要と判定された第２文字情報に対して、正規化無しで意味解析処理を実行する。このように、情報処理装置は、正規化が不要な第２文字情報については、正規化をせずに利用することで、より効率的に処理を行うことができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、変換部は、第１言語によるユーザの発話情報が正規化された第１文字情報を、１以上の第２文字情報に変換する。このように、情報処理装置は、正規化された文字情報を翻訳することにより、より適切な翻訳結果を得ることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、変換部は、発話情報に対する正規化が不要と判定された場合、発話情報を第１文字情報として、１以上の第２文字情報に変換する。このように、情報処理装置は、正規化が不要な発話については、正規化をせずに利用することで、より効率的に処理を行うことができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、実行部は、１以上の第２文字情報の品質が低い場合、１以上の第２文字情報を用いた意味解析処理を実行しない。このように、情報処理装置は、品質が低い場合、１以上の第２文字情報を用いた意味解析処理を実行しないことで、品質の低い結果を用いることを抑制することができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関するサービスの向上を可能にすることができる。

また、実行部は、１以上の第２文字情報の品質を示す品質スコアが品質閾値より低い場合、１以上の第２文字情報を用いた意味解析処理を実行しない。このように、情報処理装置は、１以上の第２文字情報の品質を示す品質スコアが品質閾値より低い場合、１以上の第２文字情報を用いた意味解析処理を実行しないことで、品質の低い結果を用いることを抑制することができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関するサービスの向上を可能にすることができる。

また、実行部は、人による後編集が所定の時間内に完了する場合、後編集により生成された第２文字情報を用いて、意味解析処理を実行する。このように、情報処理装置は、自装置による品質が低い場合であっても、人による処理が時間内に終わる場合は人による後編集の情報を用いることで、品質の低い結果を用いることを抑制しつつ、処理を可能にすることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関しても適切な意味解析を可能にすることができる。

また、実行部は、人による後編集が所定の時間内に完了しない場合、処理中断に関する処理を実行する。このように、情報処理装置は、自装置による品質が低く、人による処理も時間内に終わらない場合は、処理中断に関する処理を実行することで、品質の低い結果を用いることや、タイミングを逃したサービスを提供することを抑制することができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関するサービスの向上を可能にすることができる。

また、実行部は、処理中断を行うことを通知する処理を実行する。このように、情報処理装置は、処理中断を行うことを通知することで、処理を中断することをユーザなどに認識させることができる。したがって、情報処理装置は、意味解析処理が実行できない言語に関するサービスの向上を可能にすることができる。

また、実行部は、第１言語が意味解析処理を実行可能である場合、第１文字情報に対して意味解析処理を実行する。このように、情報処理装置は、第１言語が意味解析処理を実行可能である場合は、そのまま意味解析を行うことで、より効率的に処理を行うことができる。

［４．ハードウェア構成］
上述してきた各実施形態や変形例に係る情報処理装置１００や端末装置１０等の情報機器は、例えば図２１に示すような構成のコンピュータ１０００によって実現される。図２１は、情報処理装置１００や端末装置１０等の情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read Only Memory）１３００、ＨＤＤ（Hard Disk Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic Input Output System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

なお、本技術は以下のような構成も取ることができる。
（１）
第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換する変換部と、
意味解析が処理に対応する形式に前記１以上の第２文字情報を正規化し、正規化された前記１以上の第２文字情報を用いて、前記意味解析処理を実行する実行部と、
を備える情報処理装置。
（２）
前記１以上の第２言語の各々に対応する前記意味解析処理の結果を前記第１言語に変換する逆変換部、
をさらに備える（１）に記載の情報処理装置。
（３）
前記逆変換部は、
前記意味解析処理の前記結果のうち一部を前記第１言語に変換する、
（２）に記載の情報処理装置。
（４）
前記逆変換部は、
前記意味解析処理の前記結果のうちスロット値を前記第１言語に変換する、
（２）または（３）に記載の情報処理装置。
（５）
前記変換部は、
前記第１文字情報を、一の第２言語に対応する一の第２文字情報に変換し、
前記実行部は、
前記一の第２文字情報に対して前記意味解析処理を実行し、
前記逆変換部は、
前記一の第２言語に対する前記意味解析処理の結果を前記第１言語に変換する、
（２）〜（４）のいずれか１項に記載の情報処理装置。
（６）
前記変換部は、
複数の第２言語のうち所定の基準に基づいて選択された前記一の第２言語に対応する前記一の第２文字情報に、前記第１文字情報を変換する、
（５）に記載の情報処理装置。
（７）
前記変換部は、
変換に関する言語の対応付けを示す言語間対応表を用いて、前記第１言語に対応付けられた第２言語を、前記一の第２言語として前記第１文字情報を変換する、
（５）または（６）に記載の情報処理装置。
（８）
前記変換部は、
前記第１文字情報を、複数の第２言語の各々に対応する複数の第２文字情報に変換し、
前記実行部は、
前記複数の第２文字情報を用いて、前記意味解析処理を実行し、
前記逆変換部は、
前記複数の第２言語のうち、所定の条件を満たす第２言語に対する前記意味解析処理の結果を前記第１言語に変換する、
（２）〜（７）のいずれか１項に記載の情報処理装置。
（９）
前記逆変換部は、
前記複数の第２言語のうち、前記意味解析処理のスコアが所定の閾値以上である第２言語に対する前記意味解析処理の結果を前記第１言語に変換する、
（８）に記載の情報処理装置。
（１０）
前記逆変換部は、
前記複数の第２言語の全てに対する前記意味解析処理の結果を前記第１言語に変換する、
（８）に記載の情報処理装置。
（１１）
前記実行部は、
前記１以上の第２文字情報のうち正規化が不要と判定された第２文字情報に対して、正規化無しで前記意味解析処理を実行する、
（１）〜（１０）のいずれか１項に記載の情報処理装置。
（１２）
前記変換部は、
前記第１言語によるユーザの発話情報が正規化された前記第１文字情報を、前記１以上の第２文字情報に変換する、
（１）〜（１０）のいずれか１項に記載の情報処理装置。
（１３）
前記変換部は、
前記発話情報に対する正規化が不要と判定された場合、前記発話情報を前記第１文字情報として、前記１以上の第２文字情報に変換する、
（１２）に記載の情報処理装置。
（１４）
前記実行部は、
前記１以上の第２文字情報の品質が低い場合、前記１以上の第２文字情報を用いた前記意味解析処理を実行しない、
（１）〜（１３）のいずれか１項に記載の情報処理装置。
（１５）
前記実行部は、
前記１以上の第２文字情報の品質を示す品質スコアが品質閾値より低い場合、前記１以上の第２文字情報を用いた前記意味解析処理を実行しない、
（１４）に記載の情報処理装置。
（１６）
前記実行部は、
人による後編集が所定の時間内に完了する場合、前記後編集により生成された第２文字情報を用いて、前記意味解析処理を実行する、
（１４）または（１５）に記載の情報処理装置。
（１７）
前記実行部は、
人による後編集が所定の時間内に完了しない場合、処理中断に関する処理を実行する、
（１４）〜（１６）のいずれか１項に記載の情報処理装置。
（１８）
前記実行部は、
前記処理中断を行うことを通知する処理を実行する、
（１７）に記載の情報処理装置。
（１９）
前記実行部は、
前記第１言語が前記意味解析処理を実行可能である場合、前記第１文字情報に対して前記意味解析処理を実行する、
（１）〜（１８）のいずれか１項に記載の情報処理装置。
（２０）
第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換し、
意味解析が処理に対応する形式に前記１以上の第２文字情報を正規化し、正規化された前記１以上の第２文字情報を用いて、前記意味解析処理を実行する、
処理を実行する情報処理方法。

１情報処理システム
１００情報処理装置
１１０通信部
１２０記憶部
１２１言語情報記憶部
１２２意味フレーム情報記憶部
１２３言語間対応表情報記憶部
１２４閾値情報記憶部
１２５知識情報記憶部
１３０制御部
１３１取得部
１３２変換部
１３３実行部
１３４逆変換部
１３５生成部
１３６送信部
１０端末装置
１１通信部
１２入力部
１３出力部
１４記憶部
１５制御部
１５１受信部
１５２実行部
１５３受付部
１５４送信部
１６センサ部
１７表示部

Claims

第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換する変換部と、
意味解析が処理に対応する形式に前記１以上の第２文字情報を正規化し、正規化された前記１以上の第２文字情報を用いて、前記意味解析処理を実行する実行部と、
を備える情報処理装置。
前記１以上の第２言語の各々に対応する前記意味解析処理の結果を前記第１言語に変換する逆変換部、
をさらに備える請求項１に記載の情報処理装置。
前記逆変換部は、
前記意味解析処理の前記結果のうち一部を前記第１言語に変換する、
請求項２に記載の情報処理装置。
前記逆変換部は、
前記意味解析処理の前記結果のうちスロット値を前記第１言語に変換する、
請求項２に記載の情報処理装置。
前記変換部は、
前記第１文字情報を、一の第２言語に対応する一の第２文字情報に変換し、
前記実行部は、
前記一の第２文字情報に対して前記意味解析処理を実行し、
前記逆変換部は、
前記一の第２言語に対する前記意味解析処理の結果を前記第１言語に変換する、
請求項２に記載の情報処理装置。
前記変換部は、
複数の第２言語のうち所定の基準に基づいて選択された前記一の第２言語に対応する前記一の第２文字情報に、前記第１文字情報を変換する、
請求項５に記載の情報処理装置。
前記変換部は、
変換に関する言語の対応付けを示す言語間対応表を用いて、前記第１言語に対応付けられた第２言語を、前記一の第２言語として前記第１文字情報を変換する、
請求項５に記載の情報処理装置。
前記変換部は、
前記第１文字情報を、複数の第２言語の各々に対応する複数の第２文字情報に変換し、
前記実行部は、
前記複数の第２文字情報を用いて、前記意味解析処理を実行し、
前記逆変換部は、
前記複数の第２言語のうち、所定の条件を満たす第２言語に対する前記意味解析処理の結果を前記第１言語に変換する、
請求項２に記載の情報処理装置。
前記逆変換部は、
前記複数の第２言語のうち、前記意味解析処理のスコアが所定の閾値以上である第２言語に対する前記意味解析処理の結果を前記第１言語に変換する、
請求項８に記載の情報処理装置。
前記逆変換部は、
前記複数の第２言語の全てに対する前記意味解析処理の結果を前記第１言語に変換する、
請求項８に記載の情報処理装置。
前記実行部は、
前記１以上の第２文字情報のうち正規化が不要と判定された第２文字情報に対して、正規化無しで前記意味解析処理を実行する、
請求項１に記載の情報処理装置。
前記変換部は、
前記第１言語によるユーザの発話情報が正規化された前記第１文字情報を、前記１以上の第２文字情報に変換する、
請求項１に記載の情報処理装置。
前記変換部は、
前記発話情報に対する正規化が不要と判定された場合、前記発話情報を前記第１文字情報として、前記１以上の第２文字情報に変換する、
請求項１２に記載の情報処理装置。
前記実行部は、
前記１以上の第２文字情報の品質が低い場合、前記１以上の第２文字情報を用いた前記意味解析処理を実行しない、
請求項１に記載の情報処理装置。
前記実行部は、
前記１以上の第２文字情報の品質を示す品質スコアが品質閾値より低い場合、前記１以上の第２文字情報を用いた前記意味解析処理を実行しない、
請求項１４に記載の情報処理装置。
前記実行部は、
人による後編集が所定の時間内に完了する場合、前記後編集により生成された第２文字情報を用いて、前記意味解析処理を実行する、
請求項１４に記載の情報処理装置。
前記実行部は、
人による後編集が所定の時間内に完了しない場合、処理中断に関する処理を実行する、
請求項１４に記載の情報処理装置。
前記実行部は、
前記処理中断を行うことを通知する処理を実行する、
請求項１７に記載の情報処理装置。
前記実行部は、
前記第１言語が前記意味解析処理を実行可能である場合、前記第１文字情報に対して前記意味解析処理を実行する、
請求項１に記載の情報処理装置。
第１言語によるユーザの発話に対応する第１文字情報を、意味解析処理が実行可能な１以上の第２言語の各々に対応する１以上の第２文字情報に変換し、
意味解析が処理に対応する形式に前記１以上の第２文字情報を正規化し、正規化された前記１以上の第２文字情報を用いて、前記意味解析処理を実行する、
処理を実行する情報処理方法。