JP2017009685A - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP2017009685A JP2017009685A JP2015122667A JP2015122667A JP2017009685A JP 2017009685 A JP2017009685 A JP 2017009685A JP 2015122667 A JP2015122667 A JP 2015122667A JP 2015122667 A JP2015122667 A JP 2015122667A JP 2017009685 A JP2017009685 A JP 2017009685A
- Authority
- JP
- Japan
- Prior art keywords
- information
- sentence
- evaluation
- information processing
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
従来、ある言語の文章を、他の言語の文章に翻訳する装置が開発されている。このような機械翻訳の利便性を高めるため、翻訳精度を高めること、翻訳の良否を評価すること等が考えられている。
例えば、特許文献1には、第1データから第2データへのデータ変換手段と、第2データから第1データへのデータ逆変換手段とが併存するデータ変換装置を用いて、該第1データに対して、データ変換手段における変換適性を評価して変換適性値を算出するデータ変換適性評価方法であって、該データ変換手段により第1データを変換して変換後第2データを取得するデータ変換ステップ、該データ逆変換手段により該変換後第2データを逆変換して逆変換後第1データを取得するデータ逆変換ステップ、該第1データと該逆変換後第1データとを類似度算出手段に入力して、所定の類似度算出式により類似度を算出する類似度算出ステップ、該類似度を第1データのデータ変換手段における変換適性値として出力手段から出力する変換適性値出力ステップを含むことを特徴とするデータ変換適性評価方法が開示されている。
Conventionally, an apparatus for translating a sentence in one language into a sentence in another language has been developed. In order to improve the convenience of such machine translation, it is considered to improve translation accuracy, evaluate the quality of translation, and the like.
For example, in
ところで、音声認識技術や音声合成技術を適用して、通訳のような翻訳サービスを提供する場合、翻訳が困難となる原因は多岐に渡る。例えば、発言が不明瞭であるために、発言内容を特定することが難しかったり、発言内容が特定できても、翻訳文を生成することが難しかったりする場合がある。このような場合には、発話者に対して翻訳を困難にしている原因やその対処法を示すことで、より翻訳しやすい音声の入力を促し再発話させることで、発言者の意図に沿った翻訳を適切に行うことができる。しかしながら、翻訳を困難にしている原因やその対処法をユーザに分かり易く示すことは行われてこなかった。従って、翻訳を適切に行えない場合があった。 By the way, when providing a translation service such as an interpreter by applying a speech recognition technology or a speech synthesis technology, there are various causes for the difficulty of translation. For example, since the utterance is unclear, it may be difficult to specify the content of the utterance, or even if the utterance content can be specified, it may be difficult to generate a translation. In such a case, by explaining the cause of the difficulty of translation to the speaker and how to deal with it, prompting the user to input speech that is easier to translate and re-speaking the speech, in line with the intention of the speaker Translation can be done properly. However, the reason why translation is difficult and how to deal with it have not been shown to the user in an easy-to-understand manner. Therefore, there are cases where the translation cannot be performed properly.
本発明のいくつかの態様は、翻訳を適切に行うことができる情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。 An object of some aspects of the present invention is to provide an information processing apparatus, an information processing method, and a program that can appropriately perform translation.
また、本発明の他の態様は、後述する実施形態に記載した作用効果を奏することを可能にする情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。 Another object of another aspect of the present invention is to provide an information processing apparatus, an information processing method, and a program that can achieve the effects described in the embodiments described later.
(1)上述した課題を解決するために、本発明の一態様は、第1言語の文章を示す第1文章情報を取得する取得部と、前記第1文章情報が示す文章を、前記第1言語とは異なる第2言語に翻訳した文章を示す第2文章情報を生成する翻訳処理を実行する翻訳部と、前記翻訳処理における異常の有無を評価する第2評価部と、前記第2評価部による第2評価に基づいてキャラクタを動作させる動作制御部と、を備える情報処理装置である。 (1) In order to solve the above-described problem, according to one aspect of the present invention, an acquisition unit that acquires first sentence information indicating a sentence in a first language, and a sentence indicated by the first sentence information are included in the first sentence. A translation unit for executing a translation process for generating second sentence information indicating a sentence translated into a second language different from the language; a second evaluation unit for evaluating presence or absence of abnormality in the translation process; and the second evaluation unit And an action control unit that moves the character based on the second evaluation.
(2)また、本発明の一態様は、前記第1言語の音声を示す音声情報から、前記第1文章情報を生成する音声認識処理における異常の有無を評価する第1評価部、を備え、前記取得部は、前記音声認識処理を実行することにより、前記第1文章情報を取得し、前記動作制御部は、前記第1評価部による第1評価と、前記第2評価部による第2評価とのいずれか又は両方に基づいてキャラクタを動作させる情報処理装置である。 (2) Moreover, 1 aspect of this invention is provided with the 1st evaluation part which evaluates the presence or absence of abnormality in the speech recognition process which produces | generates the said 1st sentence information from the audio | voice information which shows the audio | voice of the said 1st language, The acquisition unit acquires the first sentence information by executing the voice recognition process, and the operation control unit performs a first evaluation by the first evaluation unit and a second evaluation by the second evaluation unit. Is an information processing apparatus that moves a character based on one or both of the above.
(3)また、本発明の一態様は、(2)に記載の情報処理装置であって、前記動作制御部は、前記音声認識処理において異常が無く、且つ、前記翻訳処理において異常が無い場合に、前記第2文章情報に基づいて、前記キャラクタを動作させる。 (3) Moreover, one aspect of the present invention is the information processing apparatus according to (2), in which the operation control unit has no abnormality in the speech recognition process and no abnormality in the translation process In addition, the character is operated based on the second sentence information.
(4)また、本発明の一態様は、(2)又は(3)に記載の情報処理装置であって、前記動作制御部は、前記音声認識処理において異常が無く、且つ、前記翻訳処理において異常がある場合に、前記第1文章情報に基づいて、前記キャラクタを動作させる。 (4) Moreover, one aspect of the present invention is the information processing apparatus according to (2) or (3), in which the operation control unit has no abnormality in the speech recognition processing and the translation processing. When there is an abnormality, the character is moved based on the first sentence information.
(5)また、本発明の一態様は、(2)から(4)のいずれかに記載の情報処理装置であって、前記第1評価と前記第2評価との両方又はいずれかと、前記キャラクタの動作との対応関係を定める動作規定情報であって、言語ごとに互いに異なる動作規定情報を記憶する言語動作情報記憶部を備え、前記動作制御部は、前記第1言語又は前記第2言語に応じた動作規定情報を参照して前記第1評価と前記第2評価とのいずれか又は両方に対応する動作を選択し、選択した動作を前記キャラクタに行わせる。 (5) Moreover, 1 aspect of this invention is an information processing apparatus in any one of (2) to (4), Comprising: Both the said 1st evaluation and the said 2nd evaluation, or either, The said character And a motion information storage unit that stores different motion specification information for each language, and the motion control unit is provided in the first language or the second language. By referring to the corresponding action definition information, an action corresponding to one or both of the first evaluation and the second evaluation is selected, and the selected action is performed by the character.
(6)また、本発明の一態様は、(5)に記載の情報処理装置であって、利用場面ごとに異なる動作規定情報であって、前記言語ごとの動作規定情報に定められていない前記対応関係を定める動作規定情報を記憶する場面動作記憶部を備え、前記動作制御部は、自装置の利用場面に応じた動作規定情報を参照して前記第1評価と前記第2評価とのいずれか又は両方に対応する動作を選択し、選択した動作を前記キャラクタに行わせる。 (6) Moreover, one aspect of the present invention is the information processing apparatus according to (5), wherein the operation definition information is different for each use scene and is not defined in the operation definition information for each language. A scene action storage unit that stores action definition information that defines a correspondence relationship is provided, and the action control unit refers to the action definition information according to the usage scene of the device itself, and the first evaluation or the second evaluation is performed. Or an action corresponding to both of them is selected, and the character is caused to perform the selected action.
(7)また、本発明の一態様は、(6)に記載の情報処理装置であって、前記動作規定情報を設定する操作を受け付ける操作受付部と、前記操作受付部が受け付けた前記操作に基づいて、前記言語動作情報記憶部と前記場面動作記憶部とのいずれか又は両方に、前記動作規定情報を記憶させる動作登録部と、を備える。 (7) One embodiment of the present invention is the information processing apparatus according to (6), in which an operation reception unit that receives an operation for setting the operation definition information and the operation that the operation reception unit receives And a motion registration unit that stores the motion regulation information in one or both of the language motion information storage unit and the scene motion storage unit.
(8)また、本発明の一態様は、情報処理装置が、第1言語の文章を示す第1文章情報を取得する第1ステップと、前記情報処理装置が、前記第1文章情報が示す文章を、前記第1言語とは異なる第2言語に翻訳した文章を示す第2文章情報を生成する翻訳処理を実行する第2ステップと、前記情報処理装置が、前記翻訳処理における異常の有無を評価する第3ステップと、前記情報処理装置が、前記第3ステップにおける評価に基づいてキャラクタを動作させる第4ステップと、を含む情報処理方法である。
である。
(8) According to one aspect of the present invention, the information processing device acquires first sentence information indicating a sentence in the first language, and the information processing apparatus indicates the sentence indicated by the first sentence information. A second step of executing a translation process for generating second sentence information indicating a sentence translated into a second language different from the first language, and the information processing apparatus evaluates whether there is an abnormality in the translation process And a fourth step in which the information processing apparatus moves the character based on the evaluation in the third step.
It is.
(9)また、本発明の一態様は、コンピュータに、第1言語の文章を示す第1文章情報を取得する第1ステップと、前記第1文章情報が示す文章を、前記第1言語とは異なる第2言語に翻訳した文章を示す第2文章情報を生成する翻訳処理を実行する第2ステップと、前記翻訳処理における異常の有無を評価する第3ステップと、前記第3ステップにおける評価に基づいてキャラクタを動作させる第4ステップと、を実行させるプログラムである。 (9) Further, according to one aspect of the present invention, a first step of acquiring, in a computer, first sentence information indicating a sentence in a first language, a sentence indicated by the first sentence information, Based on the second step of executing a translation process for generating second sentence information indicating a sentence translated into a different second language, the third step of evaluating the presence or absence of abnormality in the translation process, and the evaluation in the third step And a fourth step of moving the character.
本発明の実施形態によれば、翻訳を適切に行うことができる。 According to the embodiment of the present invention, translation can be appropriately performed.
以下、本発明の一実施形態について、図面を参照して説明する。
[第1の実施形態]
〔情報処理装置の概要〕
本発明の第1の実施形態について説明する。まず、本実施形態に係る情報処理装置10の概要について説明する。
本実施形態に係る情報処理装置10(図6)は、互いに異なる2つ以上の言語における会話の通訳を支援する装置である。つまり、情報処理装置10には、複数のユーザが存在し、これら複数のユーザは、それぞれ、異なる言語により会話をする。ただし、ユーザが3人以上である場合、これら3人以上のユーザにより用いられる言語は、2つ以上であればよい。例えば、3人のユーザがいる場合は、そのうちの2人が同じ言語を用いてもよい。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
[First embodiment]
[Outline of information processing equipment]
A first embodiment of the present invention will be described. First, an overview of the
The information processing apparatus 10 (FIG. 6) according to the present embodiment is an apparatus that supports interpretation of conversations in two or more languages different from each other. That is, there are a plurality of users in the
図1は、本実施形態に係る情報処理装置10の概要を説明するための図である。
図1には、情報処理装置10の利用に係る3つの場面C11〜C13を示す。これら第1〜第3場面C11〜C13には、音声受付部131−1、131−2、キャラクタCRと、発話者SPと、受話者REと、がそれぞれ示されている。
発話者SPとは、情報処理装置10の複数のユーザのうち、該複数のユーザによる会話における発話側のユーザである。
受話者REとは、情報処理装置10の複数のユーザのうち、該複数のユーザによる会話における受話側のユーザである。図1には、発話者SPと受話者REとが、それぞれ、1人ずつである例を示すが、情報処理装置10のユーザは、3人以上であってもよい。ただし、この場合であっても、基本的に発話者SPは1人である。発話者SPと受話者REとの関係は、固定でなく、会話の進行に応じて、発話者SPと受話者REとが入れ替わってもよい。本実施形態では、一例として、発話者SPが会話に用いる言語が日本語であり、受話者REが会話に用いる言語が英語である場合について説明する。
FIG. 1 is a diagram for explaining an overview of the
FIG. 1 shows three scenes C11 to C13 related to the use of the
The speaker SP is a user on the utterance side in a conversation by a plurality of users among the plurality of users of the
The listener RE is a user on the receiver side in a conversation between the plurality of users among the plurality of users of the
キャラクタCRとは、情報処理装置10の複数のユーザによる会話において、通訳者の役割を果たすキャラクタである。キャラクタCRの動作は、情報処理装置10により制御される。キャラクタCRは、例えば、ロボットのように現実の物体であってもよいし、例えば画面に表示されたキャラクタアニメーションであってもよい。画面にキャラクタCRを表示する場合、キャラクタCRは、2次元的に描画されてもよいし、3次元的に描画されてもよい。キャラクタCRは、動きを表現できるキャラクタであれば、どのような形状を有していてもよい。以下では、一例として、キャラクタCRが、情報処理装置10が備える表示部に表示された人型ロボットの画像である場合について説明する。
The character CR is a character that plays the role of an interpreter in a conversation between a plurality of users of the
音声受付部131−1、131−2は、情報処理装置10の複数のユーザによる会話を集音するマイク等の装置である。図1には、ユーザごとに設置された2つの音声受付部131−1、131−2を示すが、音声受付部131−1、131−2は、ユーザごとに設けられなくてもよい。以下では、音声受付部131−1、131−2を特に区別する必要がない場合、音声受付部131と総称する。
The voice receiving units 131-1 and 131-2 are devices such as microphones that collect conversations by a plurality of users of the
次に、図1に示す第1場面C11〜第3場面C13を説明する。図1に示す例において、各場面は、第1場面C11、第2場面C12、第3場面C13の順に時系列に進行している。
第1場面C11では、発話者SPは、日本語により発言を行っている。この発言は、音声受付部131−1により集音される。ここで、情報処理装置10は、集音した音声から発話者SPが話した内容を解析する。そして、解析した発言内容の第1文章(テキスト)を表す第1文章情報を生成する。つまり、第1文章とは、発話者SPが発話した内容を、発話者SPが用いる言語で表す文章である。また、情報処理装置10は、日本語の第1文章を英語に翻訳した第2文章(テキスト)を表す第2文章情報を生成する。つまり、第2文章とは、発話者SPが発話した内容を、受話者REが用いる言語で表す文章である。情報処理装置10は、これらの音声認識処理や翻訳処理において、異常の有無を評価する。
Next, the first scene C11 to the third scene C13 shown in FIG. 1 will be described. In the example shown in FIG. 1, each scene progresses in time series in the order of a first scene C11, a second scene C12, and a third scene C13.
In the first scene C11, the speaker SP is speaking in Japanese. This speech is collected by the voice reception unit 131-1. Here, the
ここで、音声認識処理における異常の有無の評価とは、音声情報からの発言内容の文章化における確からしさである。また、音声認識処理における異常の有無の評価とは、第1文章の精度を評価することでもある。第1文章の精度とは、発言内容と第1文章との整合の程度である。例えば、発言内容が第1文章とよく整合すると考えられる場合は第1文章の精度は高く、発言内容が第1文章と整合しない可能性が高い場合や第1文章情報を生成することが困難な場合は第1文章の精度は低い。情報処理装置10は、第1文章の精度が所定の閾値より低い場合、音声認識処理に異常があると判定する。以下では、音声認識処理における異常の有無の評価を音声認識評価処理と称することがある。
Here, the evaluation of the presence / absence of abnormality in the speech recognition processing is the certainty in writing the content of speech from speech information. Further, the evaluation of the presence or absence of abnormality in the speech recognition process is also an evaluation of the accuracy of the first sentence. The accuracy of the first sentence is the degree of matching between the statement content and the first sentence. For example, when it is considered that the content of the statement is well matched with the first sentence, the accuracy of the first sentence is high, and it is highly likely that the content of the comment is not consistent with the first sentence, or it is difficult to generate the first sentence information. In this case, the accuracy of the first sentence is low. The
また、翻訳処理における異常の有無の評価とは、第1文章から第2文章への翻訳の確からしさであるとも言える。また、翻訳処理における異常の有無の評価とは、第2文章の精度を評価することでもある。第2文章の精度とは、第2文章の翻訳の精度である。例えば、第1文章と第2文章との意味するところが多くの部分で一致すると考えられる場合等は第2文章情報の精度は高く、第1文章と第2文章との意味するところがあまり一致しない可能性がある場合や、第1文章から第2文章の翻訳において複数の選択肢があり、翻訳を誤る可能性がある場合等は第2文章情報の精度は低い。情報処理装置10は、第2文章の精度が所定の閾値より低い場合、翻訳処理に異常があると判定する。以下では、翻訳処理における異常の有無の評価を翻訳評価処理と称することがある。
Moreover, it can be said that the evaluation of the presence or absence of abnormality in the translation process is the certainty of translation from the first sentence to the second sentence. Also, the evaluation of the presence or absence of abnormality in the translation process is to evaluate the accuracy of the second sentence. The accuracy of the second sentence is the accuracy of translation of the second sentence. For example, when the meanings of the first sentence and the second sentence are considered to match in many parts, the accuracy of the second sentence information is high, and the meanings of the first sentence and the second sentence may not match very much. The accuracy of the second sentence information is low when there is a possibility that there is a plurality of options in the translation from the first sentence to the second sentence and there is a possibility that the translation is erroneous. When the accuracy of the second sentence is lower than the predetermined threshold, the
第1文章の精度や第2文章の精度の評価方法は、既に開示されている任意の方法を用いてよい。例えば、第1文章や第2文章の精度の評価指標として、確信度を用いることができる。音声認識評価処理における確信度とは、音声情報から生成した第1文章の確からしさを表す指標である。情報処理装置10は、例えば、音声受付部131が受け付けた音声情報を、予め用意しておいたテンプレートの音声情報と比較することにより、発言内容を特定する。このとき、情報処理装置10は、音声受付部131が受け付けた音声情報と、テンプレートの音声情報との一致の程度等を算出することにより、確信度を算出することができる。
As an evaluation method of the accuracy of the first sentence and the accuracy of the second sentence, any already disclosed method may be used. For example, the certainty factor can be used as an evaluation index of the accuracy of the first sentence and the second sentence. The certainty factor in the speech recognition evaluation process is an index representing the likelihood of the first sentence generated from the speech information. For example, the
また、翻訳評価処理における確信度とは、第1文章から生成した第2文章の確からしさを表す指標である。情報処理装置10は、例えば、第2言語から第1言語へと、第2文章を逆翻訳する。そして、情報処理装置10は、翻訳語の第1言語の文章を、元々の第1文章と比較し、2つの文章間の一致の程度を算出することにより確信度を取得することができる。以下では、音声認識評価処理による評価を第1評価と称することがある。また、翻訳評価処理による評価を第2評価と称することがある。
In addition, the certainty factor in the translation evaluation process is an index representing the probability of the second sentence generated from the first sentence. For example, the
次に、第2場面C12では、キャラクタCRが第1場面C11の発話者SPの発言に対して反応している。ここで、情報処理装置10は、第1評価や第2評価に応じてキャラクタCRの動作を選択する。例えば、上述した第1場面C11では、発話者SPの声が小さかったため、情報処理装置10は、第1文章の精度が低いと判定する。従って、第2場面C12において、情報処理装置10は、例えば、発話者SPに対して口の前で手を広げる動作をキャラクタCRに行わせ、大きな声での発話を促す。これにより、発話者SPは、声が小さかったことを認識することができるため、より大きな声で言い直す等の対応を行うことができる。
Next, in the second scene C12, the character CR reacts to the speech of the speaker SP in the first scene C11. Here, the
次に、第3場面C13では、情報処理装置10は、第2場面C12における発話者SPの言い直しにより発言内容を認識することができたため、その内容を英語に翻訳した文章を生成する。そして、情報処理装置10は、キャラクタCRに文章に則したジェスチャーを行わせながら、英語の翻訳文を音声出力する。これにより、受話者REは、発話者SPが日本語で話した内容を、正しい英語で認識することができる。
Next, in the third scene C13, the
以上のように、本実施形態に係る情報処理装置10は、第1言語(例えば、日本語)の音声を示す音声情報から、第1言語の文章を示す第1文章情報を生成する音声認識処理を実行する。また、情報処理装置10は、第1文章情報が示す文章を、第1言語とは異なる第2言語(例えば、英語)に翻訳した文章を示す第2文章情報を生成する翻訳処理を実行する。また、情報処理装置10は、音声認識処理と翻訳処理とにおける異常の有無を評価する。そして、情報処理装置10は、評価結果に基づいてキャラクタCRを動作させる。
これにより、情報処理装置10は、キャラクタCRに適切な動作を行わせ、翻訳を困難にしている原因やその対処法をユーザに分かり易く示すことができる。従って、情報処理装置10は、翻訳を適切に行うことができる。
As described above, the
As a result, the
〔動作規定情報〕
次に、本実施形態に係る情報処理装置10が処理する動作規定情報について説明する。
動作規定情報とは、音声認識処理や翻訳処理の評価結果に応じた動作を定める情報である。
まず、動作規定情報のデータ構成について説明する。
図2は、本実施形態に係る動作規定情報の一例を示す図である。
動作規定情報とは、会話の状況に応じたキャラクタCRの動作を定める情報である。図2には、一例として、第1評価と第2評価とに応じてキャラクタCRを動作させる場合の動作規定情報を示す。図2に示す例において、動作規定情報は、分類情報(図2における「分類」)と、物理入力情報(図2における「物理入力」)と、音声識別情報(図2における「音声識別」)と、音声認識意味解析情報(図2における「音声認識意味解析」)と、テキスト解析情報(図2における「テキスト解析」)と、文法解析情報(図2における「文法解析」)と、目的言語デコード情報(図2における「目的言語デコード」)と、完了判断情報(図2における「完了判断情報」)と、アクションID(IDentifier)(図2における「アクションID」)と、想定状況情報(図2における「想定状況」)と、を互いに対応付けた情報である。
[Operation regulation information]
Next, the operation definition information processed by the
The action definition information is information that defines an action according to the evaluation result of the speech recognition process or the translation process.
First, the data structure of the operation defining information will be described.
FIG. 2 is a diagram illustrating an example of the operation definition information according to the present embodiment.
The action defining information is information that defines the action of the character CR according to the conversation situation. FIG. 2 shows, as an example, action definition information when the character CR is moved according to the first evaluation and the second evaluation. In the example shown in FIG. 2, the action definition information includes classification information (“classification” in FIG. 2), physical input information (“physical input” in FIG. 2), and voice identification information (“voice identification” in FIG. 2). Speech recognition semantic analysis information ("voice recognition semantic analysis" in FIG. 2), text analysis information ("text analysis" in FIG. 2), grammar analysis information ("grammar analysis" in FIG. 2), and target language Decoding information (“target language decoding” in FIG. 2), completion determination information (“completion determination information” in FIG. 2), action ID (IDentifier) (“action ID” in FIG. 2), and assumed situation information (FIG. 2 and the “expected situation” in FIG.
分類情報とは、第1評価と第2評価との分類を表す情報である。換言すると、分類情報とは、動作規定情報の各レコードを識別する情報である。
物理入力情報とは、第1文章情報の生成において、集音された音声の物理特性についての異常の有無を表す情報である。物理入力情報には、集音された音声の品質に異常がある場合に、その異常の詳細が記述される。音声の品質における異常の有無の判定は、例えば、音声の品質を測定し、その測定値を所定の閾値と比較することにより行われる。このように、物理入力情報とは、第1評価を表す情報の一例である。つまり、本実施形態において、異常が無いということは、必ずしも全く異常が無い、ということとは限らない。例えば、処理に差支えが無い程度の軽度の異常や部分的にその後の処理が可能である場合には、異常が無いと判定される場合がある。
The classification information is information representing the classification between the first evaluation and the second evaluation. In other words, the classification information is information for identifying each record of the operation definition information.
The physical input information is information indicating whether or not there is an abnormality in the physical characteristics of the collected voice in the generation of the first sentence information. In the physical input information, when there is an abnormality in the quality of the collected voice, details of the abnormality are described. The determination of whether or not there is an abnormality in the sound quality is performed by, for example, measuring the sound quality and comparing the measured value with a predetermined threshold value. Thus, physical input information is an example of information representing the first evaluation. That is, in this embodiment, the absence of abnormality does not necessarily mean that there is no abnormality at all. For example, it may be determined that there is no abnormality when there is a slight abnormality that does not interfere with the processing, or when the subsequent processing is partially possible.
音声識別情報とは、第1文章情報の生成において、集音された音声の明瞭性についての異常の有無を表す情報である。音声識別情報には、集音された音声の明瞭性に異常がある場合に、その異常の詳細が記述される。音声の明瞭性における異常の有無の判定は、例えば、音声の明瞭性を測定し、その測定値を所定の閾値と比較することにより行われる。このように、音声識別情報とは、第1評価を表す情報の一例である。 The voice identification information is information indicating whether or not there is an abnormality in the clarity of the collected voice in the generation of the first sentence information. In the voice identification information, when there is an abnormality in the clarity of the collected voice, details of the abnormality are described. The determination of the presence or absence of an abnormality in speech clarity is performed, for example, by measuring the clarity of speech and comparing the measured value with a predetermined threshold value. Thus, the voice identification information is an example of information representing the first evaluation.
音声認識意味解析情報とは、音声から生成された第1文章の言語的表現性における異常の有無を表す情報である。音声認識意味解析情報には、第1文章の言語的表現性に異常がある場合に、その異常の詳細が記述される。第1文章の言語的表現性における異常の有無の判定は、例えば、第1文章の言語的表現性を測定し、その測定値を所定の閾値と比較することにより行われる。このように、音声認識意味解析情報とは、第1評価を表す情報の一例である。 The speech recognition semantic analysis information is information indicating the presence or absence of abnormality in the linguistic expression of the first sentence generated from the speech. In the speech recognition semantic analysis information, when there is an abnormality in the linguistic expression of the first sentence, details of the abnormality are described. The determination of the presence or absence of abnormality in the linguistic expression of the first sentence is performed, for example, by measuring the linguistic expression of the first sentence and comparing the measured value with a predetermined threshold value. As described above, the speech recognition semantic analysis information is an example of information representing the first evaluation.
テキスト解析情報とは、第2文章情報の生成において、第1文章の翻訳に係るテキスト解析の異常の有無を表す情報である。テキスト解析の異常の有無の判定は、例えば、第1文章の尤もらしさを測定し、その測定値を所定の閾値と比較することにより行われる。このように、テキスト解析情報とは、第2評価を表す情報の一例である。
文法解析情報とは、第2文章情報の生成において、第1文章の文法解析における異常の有無を表す情報である。第1文章の文法解析における異常の有無の判定は、例えば、第1文章の文法的な正しさを測定し、その測定値を所定の閾値と比較することにより行われる。このように、文法解析情報とは、第2評価を表す情報の一例である。
The text analysis information is information indicating whether or not there is an abnormality in text analysis related to the translation of the first sentence in the generation of the second sentence information. The determination of the presence / absence of text analysis abnormality is performed, for example, by measuring the likelihood of the first sentence and comparing the measured value with a predetermined threshold. As described above, the text analysis information is an example of information indicating the second evaluation.
The grammatical analysis information is information indicating the presence or absence of abnormality in the grammatical analysis of the first sentence in the generation of the second sentence information. The determination of the presence or absence of abnormality in the grammatical analysis of the first sentence is performed, for example, by measuring the grammatical correctness of the first sentence and comparing the measured value with a predetermined threshold value. As described above, the grammatical analysis information is an example of information indicating the second evaluation.
目的言語デコード情報とは、第2文章情報の生成において、第1文章から第2文章への翻訳変換における異常の有無を表す情報である。目的言語デコード情報には、翻訳変換に異常がある場合に、その異常の詳細が記述される。このように、目的言語デコード情報とは、第2評価を表す情報の一例である。
完了判断情報とは、第2文章の音声出力段階における異常の有無を表す情報の一例である。
The target language decoding information is information indicating the presence or absence of an abnormality in translation conversion from the first sentence to the second sentence in the generation of the second sentence information. In the target language decoding information, when there is an abnormality in translation conversion, details of the abnormality are described. Thus, the target language decoding information is an example of information representing the second evaluation.
The completion determination information is an example of information indicating the presence / absence of abnormality in the voice output stage of the second sentence.
アクションIDとは、キャラクタCRの動作を識別する情報である。
想定情報とは、物理入力情報、音声識別情報、音声認識意味解析情報、テキスト解析情報、文法解析情報、目的言語デコード情報、及び完了判断情報の値に基づいて想定される会話、翻訳の状況を表す情報である。
なお、後述するように、情報処理装置10は、キャラクタCRを第1文章や第2文章に基づいて動作させてもよい。この場合、動作規定情報には、例えば、単語や句、節等の表現に応じた動作が記述される。
The action ID is information for identifying the action of the character CR.
Assumed information refers to the state of conversation and translation assumed based on the values of physical input information, speech identification information, speech recognition semantic analysis information, text analysis information, grammar analysis information, target language decoding information, and completion determination information. It is information to represent.
As will be described later, the
図3は、本実施形態に係るキャラクタCRの動作の例を示す図である。
図3には、上述したアクションIDごとの、動作(アクション)と、動作の意味との対応関係を示す。情報処理装置10は、動作規定情報に基づいて、第1評価、第2評価に応じたアクションIDを特定し、アクションIDに対応する動作をキャラクタCRに行わせる。
FIG. 3 is a diagram illustrating an example of the motion of the character CR according to the present embodiment.
FIG. 3 shows a correspondence relationship between the operation (action) and the meaning of the operation for each action ID described above. The
以上のように、動作規定情報の各レコードは、第1評価及び第2評価から想定される発言の状況や処理の異常に応じた動作を定める。従って、情報処理装置10は、動作規定情報に基づいて、キャラクタCRを動作させることにより、翻訳を困難としている状況に対応することができる。
As described above, each record of the operation definition information defines an operation according to the state of speech assumed from the first evaluation and the second evaluation and the processing abnormality. Therefore, the
図4は、本実施形態に係るキャラクタCRの動作パターンの概要を示す図である。
ここで、動作パターンとは、特定の基準に基づいて複数の動作を分類したものである。
一般に言語と文化圏には相関がある。また、一般にジェスチャーは文化圏ごとに類似したものとなる傾向がある。従って、キャラクタCRの動作パターンを翻訳に用いる言語ごとに定めることにより、キャラクタCRを適切に動作させることができる。
FIG. 4 is a diagram showing an outline of the motion pattern of the character CR according to this embodiment.
Here, the operation pattern is a classification of a plurality of operations based on specific criteria.
In general, there is a correlation between language and cultural sphere. In general, gestures tend to be similar for each cultural area. Accordingly, the character CR can be appropriately operated by determining the movement pattern of the character CR for each language used for translation.
また、ジェスチャーは、文化圏の他、会話が行われる状況に応じて異なる場合がある。つまり、ジェスチャーは、情報処理装置10が用いられる場面に応じて異なる場合がある。具体的には、友人同士の間で用いられるジェスチャーと、店舗において従業員と顧客との間で用いられるジェスチャーは異なる。従って、キャラクタCRの動作パターンを利用場面(サービス、シチュエーション)ごとに定めることにより、キャラクタCRを適切に動作させることができる。
In addition, the gesture may differ depending on the situation where the conversation is performed in addition to the cultural area. That is, the gesture may differ depending on the scene where the
以上から、動作規定情報を言語ごと、利用場面ごとに用意し、会話に用いられる言語や、情報処理装置10が用いられる場面に応じて動作規定情報を選択することにより、キャラクタCRを適切に動作させることができる。
なお、ジェスチャーの違いは、文化圏によるところが大きいため、動作規定情報を言語ごとに用意しておき、利用場面ごとの動作規定情報は差分ファイルとして用意されてもよい。つまり、図4に示すように、動作パターンは、階層的に定められてもよい。具体的には、言語ごとの動作パターンを基本とし、利用場面ごとの特徴的な動作パターン、すなわちサービスに固有の動作パターンを例外、応用等として定めてよい。これにより、キャラクタCRの動作パターンを効率的に規定することができる。なお、このような動作パターンの規定において、階層は、3つ以上の複数であってもよい。また、各階層の分類は、言語、サービスの他、任意に定められてよい。
As described above, the action regulation information is prepared for each language and each usage scene, and the action CR is appropriately operated by selecting the action regulation information according to the language used for the conversation or the scene where the
In addition, since the difference in gestures largely depends on the cultural sphere, the action definition information may be prepared for each language, and the action definition information for each use scene may be prepared as a difference file. That is, as shown in FIG. 4, the operation pattern may be defined hierarchically. Specifically, an operation pattern for each language may be used as a basis, and a characteristic operation pattern for each usage scene, that is, an operation pattern unique to a service may be defined as an exception or application. Thereby, the motion pattern of the character CR can be efficiently defined. In the definition of such an operation pattern, the hierarchy may be a plurality of three or more. Further, the classification of each layer may be arbitrarily determined in addition to language and service.
〔情報処理装置の構成〕
次に、情報処理装置10の構成について説明する。
まず、情報処理装置10のハードウェア構成について説明する。
図5は、本実施形態に係る情報処理装置10のハードウェア構成の一例を示す図である。
情報処理装置10は、例えば、パーソナルコンピュータ、携帯電話、タブレット、スマートフォン、PHS(Personal Handy−phone System)端末装置、又はPDA(Personal Digital Assistant)などの電子機器である。
[Configuration of information processing device]
Next, the configuration of the
First, the hardware configuration of the
FIG. 5 is a diagram illustrating an example of a hardware configuration of the
The
情報処理装置10は、CPU(Central Processing Unit)11と、記憶部12と、入力部13と、音声出力部14と、表示部15と、を備える。
記憶部12は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、ROM(Read−Only Memory)、RAM(Random Access Memory)などを含み、CPU11が実行するプログラムや、CPU11が処理する各種情報、CPU11による処理結果等を記憶する。
The
The
入力部13は、例えば、マウス、タッチパネル等のポインティングデバイス、キーボード、マイク等の各種入力装置を含む。入力部13が受け付け可能な操作の内容は、例えば、表示部15が備える表示装置により表示されてもよい。
音声出力部14は、例えば、スピーカー等の音響機器を含む。
表示部15は、例えば、液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイなどの表示装置を含む。
以上が、情報処理装置10のハードウェア構成の説明である。
The
The
The
The above is the description of the hardware configuration of the
次に、情報処理装置10の機能構成について説明する。
図6は、本実施形態に係る情報処理装置10の機能構成の一例を示す図である。
情報処理装置10は、記憶部12と、音声出力部14と、表示部15と、制御部110と、音声受付部131と、操作受付部132と、を備える。
記憶部12は、動作規定情報を記憶する動作情報記憶部121を備える。また、動作情報記憶部121は、言語動作情報記憶部122と、場面動作情報記憶部123と、を備える。
Next, the functional configuration of the
FIG. 6 is a diagram illustrating an example of a functional configuration of the
The
The
言語動作情報記憶部122は、言語ごとの動作規定情報を記憶する。言語ごとの動作規定情報は、例えば、各種言語に対応する文化圏に共通の基本的な動作パターン全般を定める。
場面動作情報記憶部123は、利用場面ごとの動作規定情報を記憶する。利用場面ごとの動作規定情報は、例えば、各種利用場面に対応するサービスに共通の動作パターンのうち、上述した言語ごとの動作規定情報には記述されていないサービス固有の動作パターンを定める。利用場面ごとの動作規定情報は、例えば、言語ごとの動作規定情報とは、分離した差分ファイルとして用意されてもよい。
The language action
The scene motion
音声受付部131は、音声入力を受け付ける。具体的には、例えば、音声受付部131は、情報処理装置10の周囲の音声を集音する。つまり、音声受付部131は、発話者SPの発言を集音する。音声受付部131は、集音した音声を示す音声情報を制御部110に出力する。
操作受付部132は、操作入力を受け付ける。具体的には、例えば、操作受付部132は、情報処理装置10のユーザが用いる言語や、情報処理装置10が用いられる場面等の選択を受け付ける。また、操作受付部132は、ユーザが独自に定める動作規定情報の入力を受け付けてもよい。つまり、操作受付部132は、動作規定情報を設定する操作を受け付けてもよい。操作受付部132は、受け付けた操作を示す操作情報を制御部110に出力する。
The
The
制御部110は、情報処理装置10が備える各種構成の動作を制御する。制御部110は、例えば、CPU11が記憶部12に記憶されたプログラムを実行することにより実現される。
制御部110は、音声認識部(取得部)111と、翻訳部112と、音声合成部113と、第1評価部114と、第2評価部115と、動作制御部116と、動作登録部117と、を備える。
The
The
音声認識部111は、音声認識処理を実行する。具体的には、音声認識部111は、音声受付部131から音声情報を取得する。音声認識部111は、取得した音声情報を解析し、音声情報に含まれる発話者SPの発言をテキスト化する。つまり、音声認識部111は、第1文章を示す第1文章情報を生成する。音声認識部111は、生成した第1文章情報を翻訳部112に出力する。
The
翻訳部112は、翻訳処理を実行する。具体的には、翻訳部112は、音声受付部131から第1文章情報を取得する。翻訳部112は、取得した第1文章情報を解析し、第1文章情報が示す文章を受話者REの言語に翻訳する。つまり、翻訳部112は、第2文章を示す第2文章情報を生成する。翻訳部112は、生成した第2文章情報を音声合成部113に出力する。
The
音声合成部113は、翻訳結果を出力する。具体的には、音声合成部113は、翻訳部112から第2文章情報を取得する。音声合成部113は、取得した第2文章情報が示す第2文章を音声化した音声情報を生成する。音声合成部113は、生成した音声情報を音声出力部14に出力する。これにより、音声受付部131に入力された第1言語の音声が、第1言語とは異なる第2言語の音声として音声出力部14から発せられる。
また、音声合成部113は、第1評価、第2評価において、異常が発見された場合は、キャラクタCRの動作に合わせて異常の内容を音声出力する。
The
In addition, when an abnormality is found in the first evaluation and the second evaluation, the
第1評価部114は、音声認識評価処理を実行する。具体的には、第1評価部114は、音声認識処理の各過程において、上述した物理入力情報、音声識別情報、音声認識意味解析情報等の第1評価情報を生成する。第1評価部114は、生成した第1評価情報を動作制御部116に出力する。
The
第2評価部115は、翻訳評価処理を実行する。具体的には、第2評価部115は、翻訳処理の各過程において、上述したテキスト解析情報、文法解析情報、目的言語デコード情報等の第2評価情報を生成する。第2評価部115は、生成した第2評価情報を動作制御部116に出力する。
The
動作制御部116は、キャラクタCRの動作を制御する。動作制御部116は、主に動作規定情報の選択、動作の特定を行う。
まず、動作規定情報の選択について説明する。動作制御部116は、操作受付部132から取得する操作情報に基づいて、キャラクタCRの動作の決定に用いる動作規定情報を選択する。この操作情報には、例えば、情報処理装置10のユーザによって選択された発話者SPが用いる言語の情報、受話者REが用いる言語の情報、情報処理装置10の利用場面の情報等が含まれている。動作制御部116は、動作情報記憶部121に記憶されている言語ごと、利用場面ごとの動作規定情報のうち、ユーザにより選択された言語、利用場面の動作規定情報を取得する。これにより、動作制御部116は、言語圏、利用場面ごとに適した動作をキャラクタCRに行わせることができる。
The
First, selection of the operation regulation information will be described. Based on the operation information acquired from the
なお、発話者SPの言語は、音声認識部111による音声認識処理において特定されてもよい。この場合であっても、動作制御部116は、発話者SPの言語に応じた動作規定情報を選択することができるため、情報処理装置10のユーザに不要な操作を行わせることなく、発話者SPの言語に応じた適切な動作をキャラクタCRに行わせることができる。
Note that the language of the speaker SP may be specified in the voice recognition processing by the
次に、動作の特定について説明する。動作制御部116は、第1評価部114から第1評価情報を取得する。また、動作制御部116は、第2評価部115から第2評価情報を取得する。動作制御部116は、上述した処理により選択された動作規定情報を参照し、第1評価情報の値、及び、第2評価情報の値に対応するアクションIDを特定する。つまり、動作制御部116は、第1評価と第2評価とに応じた動作を特定する。このとき、動作制御部116は、キャラクタCRを発話者SPに対して動作させるときは、発話者SPの言語に応じた動作規定情報を参照して動作を特定する。また、キャラクタCRを受話者REに対して動作させるときは、受話者REの言語に応じた動作規定情報を参照して動作を特定する。そして、動作制御部116は、特定した動作をキャラクタCRに行わせる。この動作は、例えば、音声出力部14による音声の出力と協調させる。これにより、情報処理装置10は、翻訳が困難である原因やその対処法をさらに分かり易くユーザに示すことができる。
Next, the operation specification will be described. The
また、動作制御部116は、第1文章情報、第2文章情報を参照し、その内容に応じた動作を選択してもよい。例えば、動作制御部116は、第1文章や第2文章に現れる名詞(例えば、料理等)の画像を表示させたり、感嘆詞に応じて感情を表現する動作をキャラクタCRに行わせたりしてもよい。これにより、情報処理装置10は、キャラクタCRを発話者SPの発言内容に応じて動作させることができるため、会話をより円滑に進めることができる。
第1文章情報に基づく動作の選択は、例えば、翻訳処理において異常が検出された場合に行われるようにしてもよい。また、音声認識処理や翻訳処理に異常が検出された場合であっても、テキスト化できた部分に基づいてキャラクタCRを動作させてもよい。これにより、情報処理装置10は、発話者SPの発言内容を翻訳することができない場合であっても、発話者SPの発言内容の少なくとも一部を、受話者REに通知することができる。
In addition, the
The selection of the operation based on the first sentence information may be performed, for example, when an abnormality is detected in the translation process. Further, even when an abnormality is detected in the speech recognition process or the translation process, the character CR may be operated based on the portion that has been converted into text. Thereby, the
また、動作制御部116は、音声認識処理、翻訳処理が全て完了する前にキャラクタCRを動作させてもよい。例えば、音声認識処理において、音声受付部131から取得した音声情報のうち、音声認識が完了した部分(つまり、聞き取れた部分)に基づいて、キャラクタCRを動作させてもよい。
Further, the
また、動作制御部116は、キャラクタCRの向きを制御してよい。この場合、動作制御部116は、情報処理装置10のユーザから発言があった場合に、そのユーザに対してキャラクタCRが向くようにキャラクタCRの向きを制御する。また、動作制御部116は、発言が終了した場合に、キャラクタCRが受話者REの方に向くように制御する。情報処理装置10の複数のユーザ各々の配置は、任意の方法により特定されてよい。各ユーザの配置は、例えば、音声受付部131が受け付ける音声入力の強さに基づいて特定されてもよいし、情報処理装置10が備える撮像部の撮像画像から、画像認識により特定されてもよい。
Further, the
また、キャラクタCRは、情報処理装置10ごとに1つでなくてもよい。例えば、情報処理装置10は、複数のユーザそれぞれに対応するキャラクタCRを制御してもよい。また、情報処理装置10は、第1評価、第2評価それぞれに対応するキャラクタCRを制御してもよい。具体的には、例えば、音声認識処理における異常を検出した場合に動作するキャラクタCRと、翻訳処理における異常を検出した場合に動作するキャラクタCRとがそれぞれ用意されてもよい。これにより、情報処理装置10は、翻訳が困難である原因やその対処法をさらに分かり易くユーザに示すことができる。
Further, the number of character CRs may not be one for each
動作登録部117は、操作受付部132が受け付けた操作に基づいて、動作規定情報を生成する。このとき、動作登録部117は、例えば、表示部15に動作の種類と、音声認識処理及び翻訳処理において検出可能な異常の種類とを選択可能に表示し、ユーザによる選択に基づいて動作規定情報を生成する。そして、動作登録部117は、生成した動作規定情報を動作情報記憶部121に記憶させる。なお、動作登録部117は、言語、利用場面等に対応した動作規定情報を登録可能としてもよいし、各ユーザに対応した動作規定情報を登録可能としてもよい。また、動作情報記憶部121は、既に動作情報記憶部121に記憶されている動作規定情報を編集可能としてもよい。
以上が情報処理装置10の構成についての説明である。
The
The above is the description of the configuration of the
〔情報処理装置の動作〕
次に、情報処理装置10の動作について説明する。
図7は、本実施形態に係る情報処理装置10による処理の流れの一例を示すフローチャートである。
ここでは、一例として、発話者SPが発話を行い、発話に応じた動作をキャラクタCRに行わせるまでの処理の流れを示すフローチャートである。
(ステップS100)音声受付部131は、発話者SPによる音声入力を受け付ける。音声受付部131は、受け付けた音声を示す音声情報を音声認識部111に出力する。その後、制御部110は、ステップS102に処理を進める。
[Operation of information processing device]
Next, the operation of the
FIG. 7 is a flowchart showing an example of the flow of processing by the
Here, as an example, it is a flowchart showing the flow of processing until the speaker SP utters and causes the character CR to perform an action corresponding to the utterance.
(Step S100) The
(ステップS102)音声認識部111は、音声受付部131から音声情報を取得する。音声受付部131は、取得した音声情報を解析し、第1文章情報を生成する。音声認識部111は、生成した第1文章情報を翻訳部112に出力する。その後、制御部110は、ステップS104に処理を進める。
(ステップS104)第1評価部114は、音声認識処理における異常の有無を評価し、第1評価情報を生成する。音声認識部111は、生成した第1評価情報を動作制御部116に出力する。その後、制御部110は、ステップS106に処理を進める。
(Step S <b> 102) The
(Step S104) The
(ステップS106)翻訳部112は、音声認識部111から第1文章情報を取得する。翻訳部112は、取得した第1文章情報を解析し、第2文章を示す第2文章情報を生成する。その後、制御部110は、ステップS108に処理を進める。
(ステップS108)第2評価部115は、翻訳処理における異常の有無を評価し、第2評価情報を生成する。翻訳部112は、生成した第2評価情報を動作制御部116に出力する。その後、制御部110は、ステップS110に処理を進める。
(Step S <b> 106) The
(Step S108) The
(ステップS110)動作制御部116は、動作情報記憶部121に記憶されている動作規定情報を参照し、第1評価情報、第2評価情報に基づいて動作を選択する。このとき、動作制御部116は、第1文章情報、第2文章情報を参照し、その内容に応じた動作を選択してもよい。その後、制御部110は、ステップS112に処理を進める。
(ステップS112)動作制御部116は、ステップS110の処理で選択した動作を、キャラクタCRに行わせる。また、音声合成部113は、異常の情報、翻訳結果等を表す音声情報を生成し、キャラクタCRの動作と協調させて音声を出力させる。そして、制御部110は、図7に示す処理を終了する。
以上が情報処理装置10の動作についての説明である。
(Step S110) The
(Step S112) The
The above is the description of the operation of the
〔第1の実施形態のまとめ〕
以上説明してきたように、本実施形態による情報処理装置10は、第1言語(例えば、日本語)の文章を示す第1文章情報を取得する音声認識部111(取得部の一例)と、第1文章情報が示す文章を、第1言語とは異なる第2言語(例えば、英語)に翻訳した文章を示す第2文章情報を生成する翻訳処理を実行する翻訳部112と、翻訳処理における異常の有無を評価する第2評価部115と、第2評価部115による第2評価に基づいてキャラクタ(例えば、キャラクタCR)を動作させる動作制御部116と、を備える。
[Summary of First Embodiment]
As described above, the
これにより、情報処理装置10は、翻訳処理において、翻訳の精度を低下させる異常を検出し、その原因や対処法をユーザに分かり易く示すため、翻訳を適切に行うことができる。具体的には、情報処理装置10は、言い回しが翻訳に適していない等の問題や、問題ごとの対処法をユーザに分かり易く示すことができる。
Thereby, in the translation process, the
また、情報処理装置10は、第1言語の音声を示す音声情報から、第1文章情報を生成する音声認識処理における異常の有無を評価する第1評価部114、を備え、音声認識部111は、音声認識処理を実行することにより、第1文章情報を取得し、動作制御部116は、第1評価部による第1評価と、第2評価部による第2評価とのいずれか又は両方に基づいてキャラクタを動作させる。
これにより、情報処理装置10は、音声認識処理において、翻訳の精度を低下させる異常を検出し、その原因や対処法をユーザに分かり易く示す。従って、翻訳を適切に行うことができる。具体的には、情報処理装置10は、発言が不明瞭である、声が小さい等の問題や問題ごとの対処法をユーザに分かり易く示すことができる。
In addition, the
Thereby, the
また、動作制御部116は、音声認識処理において異常が無く、且つ、翻訳処理において異常が無い場合に、第2文章情報に基づいて、キャラクタを動作させる。
これにより、動作制御部116は、音声認識処理や翻訳処理に異常が無い場合には、翻訳語の文章の内容に応じてキャラクタを動作させること等ができるため、ユーザ同士の会話をより円滑に進めることができる。
The
As a result, when there is no abnormality in the speech recognition process or the translation process, the
また、動作制御部116は、第1評価において異常が無く、且つ、第2評価において異常がある場合に、第1文章情報に基づいて、キャラクタを動作させる。
これにより、動作制御部116は、音声認識処理において異常が無く、翻訳処理に異常がある場合には、翻訳前の文章の内容に応じてキャラクタを動作させること等ができる。つまり、翻訳語の音声を出力することができない場合であっても、少なくとも部分的に発話者SPの発言内容を受話者REに通知することができる。
The
Thereby, the
また、情報処理装置10は、第1評価と第2評価との両方又はいずれかと、キャラクタの動作との対応関係を定める動作規定情報であって、言語ごとに互いに異なる動作規定情報を記憶する言語動作情報記憶部を備え、動作制御部は、第1言語又は第2言語に応じた動作規定情報を参照して第1評価と第2評価とのいずれか又は両方に対応する動作を選択し、選択した動作をキャラクタに行わせる。
これにより、情報処理装置10は、文化圏ごとに異なるジェスチャーを適切に選択し、キャラクタを動作させることができる。
In addition, the
Thereby, the
また、情報処理装置10は、利用場面ごとに異なる動作規定情報であって、言語ごとの動作規定情報に定められていない対応関係を定める動作規定情報を記憶する場面動作記憶部を備え、動作制御部は、自装置の利用場面に応じた動作規定情報を参照して第1評価と第2評価とのいずれか又は両方に対応する動作を選択し、選択した動作をキャラクタに行わせる。
これにより、情報処理装置10は、利用場面ごとに異なるパターンでキャラクタを動作させることができる。また、情報処理装置10は、言語ごとの動作規定情報に定められている動作については、利用場面ごとの動作規定情報に定める必要がないため、キャラクタの動作パターンを効率的に規定することができる。
In addition, the
Thereby, the
また、情報処理装置10は、動作規定情報を設定するキャラクタの動作を選択する操作を受け付ける操作受付部132と、操作受付部132が受け付けた操作に基づいて、言語動作情報記憶部122と場面動作情報記憶部123とのいずれか又は両方に、動作規定情報を記憶させる動作登録部117と、を備える。
これにより、情報処理装置10は、キャラクタの動作を、ユーザにより設定可能とするため、より自由度の高いコミュニケーションを提供することができる。
In addition, the
Thereby, the
[第2の実施形態]
〔情報処理装置の概要〕
本発明の第2の実施形態について説明する。ここでは、上述した実施形態と同様の構成には、同一の符号を付し、説明を援用する。
本実施形態に係る情報処理装置10Aは、第1の実施形態に係る情報処理装置10と同様に、互いに異なる2つ以上の言語における会話の通訳を支援する装置である。ただし、情報処理装置10Aは、音声認識処理や翻訳処理において異常が検出された場合に、発話者SPだけでなく、受話者REに向けた動作をキャラクタCRに行わせる。
[Second Embodiment]
[Outline of information processing equipment]
A second embodiment of the present invention will be described. Here, the same code | symbol is attached | subjected to the structure similar to embodiment mentioned above, and description is used.
Similar to the
図8は、本実施形態に係る情報処理装置10Aの概要を説明するための図である。
図8には、情報処理装置10Aの利用に係る3つの場面C21〜C23を示す。これら第1〜第3場面C21〜C23には、音声受付部131−1、131−2、キャラクタCRと、発話者SPと、受話者REと、がそれぞれ示されている。
第1場面C21では、発話者SPが発言を行っている。
次に、第2場面C22では、発話者SPが話している最中に、受話者RE(発話者SPとは別のユーザ)が発言し始めている。この場合、発話者SPの発言と受話者REとの発言が混ざるため、音声認識の精度が低下する恐れがあり、好ましくない。そこで、情報処理装置10Aは、受話者REの発言を制止する動作をキャラクタCRに行わせる。
その後の第3場面では、キャラクタCRの動作により受話者REは発言を取り止めている。このように、情報処理装置10Aは、発話者SPだけでなく、受話者REに対しても翻訳を困難にしている原因やその対処法を示すことができるため、翻訳を適切に行うことができる。
FIG. 8 is a diagram for explaining an overview of the information processing apparatus 10A according to the present embodiment.
FIG. 8 shows three scenes C21 to C23 related to use of the information processing apparatus 10A. In these first to third scenes C21 to C23, voice reception units 131-1 and 131-2, a character CR, a speaker SP, and a receiver RE are shown, respectively.
In the first scene C21, the speaker SP is speaking.
Next, in the second scene C22, the speaker RE (a user different from the speaker SP) starts to speak while the speaker SP is speaking. In this case, since the utterance of the speaker SP and the utterance of the receiver RE are mixed, the accuracy of voice recognition may be lowered, which is not preferable. Therefore, the
In the third scene thereafter, the listener RE stops speaking by the action of the character CR. As described above, the information processing apparatus 10A can indicate not only the speaker SP but also the receiver RE not only the cause of the translation that is difficult, and the countermeasures, but can appropriately perform the translation. .
〔情報処理装置の構成〕
次に、情報処理装置10Aの構成について説明する。
図9は、本実施形態に係る情報処理装置10Aの機能構成の一例を示すブロック図である。
情報処理装置10Aは、第1の実施形態に係る情報処理装置10が備える制御部110に代えて制御部110Aを備える。また、制御部110Aは、制御部110が備える動作制御部116に代えて動作制御部116Aを備える。
動作制御部116Aは、動作制御部116と同様に動作規定情報を参照して、キャラクタCRの動作を選択する。ただし、動作制御部116Aが参照する動作規定情報には、例えば、発話者SP向け、受話者RE向け等、キャラクタCRが行う動作の対象者の情報が記述されている。
以上が情報処理装置10Aの構成についての説明である。
[Configuration of information processing device]
Next, the configuration of the information processing apparatus 10A will be described.
FIG. 9 is a block diagram illustrating an example of a functional configuration of the information processing apparatus 10A according to the present embodiment.
The information processing apparatus 10A includes a
Similar to the
The above is the description of the configuration of the information processing apparatus 10A.
〔第2の実施形態のまとめ〕
以上説明してきたように、本実施形態による情報処理装置10Aにおいて、動作制御部116Aは、受話者REに対する動作をキャラクタに行わせる。
これにより、情報処理装置10Aは、音声認識処理や翻訳処理において異常が検出された場合に、発話者SPだけでなく、受話者REに向けた動作をキャラクタCRに行わせる。従って、情報処理装置10Aは、発話者SPの発言を翻訳しやすい環境を整え、翻訳を適切に行うことができる。
[Summary of Second Embodiment]
As described above, in the information processing apparatus 10A according to the present embodiment, the motion control unit 116A causes the character to perform a motion on the listener RE.
Thus, the information processing apparatus 10A causes the character CR to perform an action not only for the speaker SP but also for the receiver RE when an abnormality is detected in the speech recognition process or the translation process. Therefore, the information processing apparatus 10A can prepare an environment in which the speech of the speaker SP is easily translated and can appropriately perform the translation.
[第3の実施形態]
〔情報処理装置の概要〕
本発明の第3の実施形態について説明する。ここでは、上述した実施形態と同様の構成には、同一の符号を付し、説明を援用する。
本実施形態に係る情報処理装置10Bは、第1の実施形態に係る情報処理装置10と同様に、互いに異なる2つ以上の言語における会話の通訳を支援する装置である。ただし、情報処理装置10Bは、自装置から出力した音声に対する受話者REの反応に応じて翻訳の誤りを検出する。
[Third embodiment]
[Outline of information processing equipment]
A third embodiment of the present invention will be described. Here, the same code | symbol is attached | subjected to the structure similar to embodiment mentioned above, and description is used.
Similar to the
図10は、本実施形態に係る情報処理装置10Bの概要を説明するための図である。
図10には、情報処理装置10Bの利用に係る3つの場面C31〜C33を示す。これら第1〜第3場面C31〜C33には、音声受付部131−1、131−2、キャラクタCRと、発話者SPと、受話者REと、がそれぞれ示されている。
第1場面C31では、情報処理装置10Bが、発話者SPの発言を翻訳した音声を出力している。
次に、第2場面C32では、受話者REが情報処理装置10Bからの発言を理解できなかったため、聞き直している。
その後の第3場面C33では、情報処理装置10Bは、第1場面C31において出力した音声の翻訳に誤りがあった可能性があるため、受話者REに謝罪を示す動作を行い、謝罪および発話者に確認を行う音声を出力している。このように情報処理装置10Bは、自装置から出力した音声に対する受話者REの反応により翻訳結果の確認を行い、適切な意図伝達のための対応を行うことができる。
FIG. 10 is a diagram for explaining an overview of the
FIG. 10 shows three scenes C31 to C33 related to use of the
In the first scene C31, the
Next, in the second scene C32, the listener RE cannot hear the speech from the
In the third scene C33 thereafter, the
〔情報処理装置の構成〕
次に、情報処理装置10Bの構成について説明する。
図11は、本実施形態に係る情報処理装置10Bの機能構成の一例を示すブロック図である。
情報処理装置10Bは、第1の実施形態に係る情報処理装置10が備える制御部110に代えて制御部110Bを備える。また、制御部110Bは、制御部110が備える動作制御部116に代えて動作制御部116Bを備える。
[Configuration of information processing device]
Next, the configuration of the
FIG. 11 is a block diagram illustrating an example of a functional configuration of the
The
動作制御部116Bは、動作制御部116と同様に動作規定情報を参照して、キャラクタCRの動作を選択する。ただし、動作制御部116Bは、第1文章の精度や第2文章の精度が所定の閾値に比して低い場合に出力した翻訳音声に対して、受話者REが所定の言葉や文章を発した場合に、特定の動作を選択する。ここで、所定の言葉や文章とは、例えば、聞き返しに用いられる言葉や文章である。また、特定の動作とは、例えば、受話者REに対して謝罪を示す動作や、発話者SPに対して再度の発言を促す動作である。所定の言葉や文章や、これらに対応する動作は、例えば、動作規定情報に記述されている。
Similar to the
なお、動作制御部116Bは、例えば、音声出力部14から音声を出力してからの所定期間に、上記所定の言葉や文章が入力された場合にのみ、上記特定の動作をキャラクタCRに行わせるようにしてもよい。また、音声合成部113は、動作に合わせて、その動作に対応する音声を音声出力部14に出力させてもよい。
以上が情報処理装置10Bの構成についての説明である。
For example, the motion control unit 116B causes the character CR to perform the specific motion only when the predetermined word or sentence is input during a predetermined period after the voice is output from the
The above is the description of the configuration of the
〔第3の実施形態のまとめ〕
以上説明してきたように、本実施形態による情報処理装置10Bにおいて、動作制御部116Bは、音声出力部14が出力した音声に対して特定の音声入力が行われた場合に、キャラクタを動作させる。
これにより、情報処理装置10Bは、自装置から出力した音声に対する受話者REの反応に応じて翻訳の誤りを検出する。
[Summary of Third Embodiment]
As described above, in the
Thereby, the
[変形例]
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、上述の第1から第3の実施形態において説明した各構成は、任意に組み合わせたり、分離したりすることができる。
[Modification]
The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to the above-described embodiment, and includes a design and the like within a scope not departing from the gist of the present invention. For example, the configurations described in the first to third embodiments described above can be arbitrarily combined or separated.
例えば、情報処理装置10、10A、10Bは、ネットワークを介して接続された端末装置であってよい。この場合、発話者SPと受話者REがそれぞれ情報処理装置10、10A、10Bを所有し、各情報処理装置10、10A、10B間で第1文章情報、第2文章情報、第1評価情報、第2評価情報等を送受信することにより、上述した各実施形態に係る情報処理装置10、10A、10Bの動作を実現してもよい。また、情報処理装置10、10A、10Bはサーバ装置であってもよい。この場合、発話者SPと受話者REとは、それぞれ、サーバ装置と通信する端末装置を使用し、該端末装置に表示されたキャラクタCRを介して翻訳サービスを受けてもよい。
For example, the
また、第1評価部114は、音声認識評価処理のうちの一部のみを行ってもよい。この場合、例えば、音声認識部111が確信度等の評価指標の測定を行い、測定結果を第1評価部114に出力する。そして、第1評価部114は、取得した測定結果と、所定の閾値とを比較して音声認識処理における異常の有無を判定する。また、別の例では、第1評価部114が確信度等の評価指標の測定を行い、測定結果を動作制御部116、116A、116Bに出力する。そして、動作制御部116、116A、116Bは、取得した測定結果と、所定の閾値とを比較して音声認識処理における異常の有無を判定する。
The
同様に、第2評価部115は、翻訳評価処理のうちの一部のみを行ってもよい。この場合、例えば、翻訳部112が確信度等の評価指標の測定を行い、測定結果を第2評価部115に出力する。そして、第2評価部115は、取得した測定結果と、所定の閾値とを比較して翻訳処理における異常の有無を判定する。また、別の例では、第2評価部115が確信度等の評価指標の測定を行い、測定結果を動作制御部116、116A、116Bに出力する。そして、動作制御部116、116A、116Bは、取得した測定結果と、所定の閾値とを比較して翻訳処理における異常の有無を判定する。
このように、上述した各実施形態における情報処理装置10、10A、10Bの各構成が行う処理は、任意に分離されたり、他の構成により行われてもよい。
Similarly, the
As described above, the processing performed by each configuration of the
また、上述した実施形態において、音声認識評価処理や翻訳評価処理に用いる各種閾値は、固定でなくてもよい。例えば、これらの閾値は言語や利用場面に応じて予め定められたものを採用してもよい。この場合、これらの閾値は、言語ごとの動作規定情報や利用場面ごとの動作規定情報に予め記述されていてもよい。 In the above-described embodiment, various threshold values used for the speech recognition evaluation process and the translation evaluation process may not be fixed. For example, these threshold values may be determined in advance according to the language or usage scene. In this case, these threshold values may be described in advance in the action definition information for each language or the action definition information for each use scene.
また、上述した実施形態では、発話者SPの音声による発言を翻訳する場合について説明したが、これには限られない。情報処理装置10は、例えば、音声認識することなく、直接的に第1文章情報を取得してもよい。具体的には、情報処理装置10は、キーボード等の文字入力用の入力装置を備え、該入力装置への入力に基づいて、第1文章情報を取得してもよい。また、例えば、情報処理装置10は、外部装置から送信された第1文章情報を取得してもよい。このように、情報処理装置10は、文字入力や、他の装置との通信等を介して第1文章情報を取得する取得部を備えてもよい。
Moreover, although embodiment mentioned above demonstrated the case where the speech by the voice of speaker SP was translated, it is not restricted to this. For example, the
また、上述の情報処理装置10、10A、10Bの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより情報処理装置10、10A、10Bとしての処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。
Also, a program for realizing the functions of the
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。 The “computer system” here includes an OS and hardware such as peripheral devices. The “computer system” may include a plurality of computer devices connected via a network including a communication line such as the Internet, WAN, LAN, and dedicated line. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system.
このように、プログラムを記憶した記録媒体は、CD−ROM等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。配信サーバの記録媒体に記憶されるプログラムのコードは、端末装置で実行可能な形式のプログラムのコードと異なるものでもよい。すなわち、配信サーバからダウンロードされて端末装置で実行可能な形でインストールができるものであれば、配信サーバで記憶される形式は問わない。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に端末装置で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。 As described above, the recording medium storing the program may be a non-transitory recording medium such as a CD-ROM. The recording medium also includes a recording medium provided inside or outside that is accessible from the distribution server in order to distribute the program. The code of the program stored in the recording medium of the distribution server may be different from the code of the program that can be executed by the terminal device. That is, the format stored in the distribution server is not limited as long as it can be downloaded from the distribution server and installed in a form that can be executed by the terminal device. Note that the program may be divided into a plurality of parts, downloaded at different timings, and combined in the terminal device, or the distribution server that distributes each of the divided programs may be different.
さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 Furthermore, the “computer-readable recording medium” holds a program for a certain period of time, such as a volatile memory (RAM) inside a computer system that becomes a server or a client when the program is transmitted via a network. Including things. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
10、10A、10B…情報処理装置、11…CPU、12…記憶部、121…動作情報記憶部、13…入力部、131…音声受付部、132…操作受付部、14…音声出力部、15…表示部、110、110A、110B…制御部、111…音声認識部、112…翻訳部、113…音声合成部、116、116A、116B…動作制御部
DESCRIPTION OF
Claims (9)
前記第1文章情報が示す文章を、前記第1言語とは異なる第2言語に翻訳した文章を示す第2文章情報を生成する翻訳処理を実行する翻訳部と、
前記翻訳処理における異常の有無を評価する第2評価部と、
前記第2評価部による第2評価に基づいてキャラクタを動作させる動作制御部と、
を備える情報処理装置。 An acquisition unit for acquiring first sentence information indicating a sentence in a first language;
A translation unit for executing a translation process for generating second sentence information indicating a sentence obtained by translating the sentence indicated by the first sentence information into a second language different from the first language;
A second evaluation unit for evaluating the presence or absence of abnormality in the translation process;
A motion control unit that moves the character based on the second evaluation by the second evaluation unit;
An information processing apparatus comprising:
を備え、
前記取得部は、前記音声認識処理を実行することにより、前記第1文章情報を取得し、
前記動作制御部は、前記第1評価部による第1評価と、前記第2評価部による第2評価とのいずれか又は両方に基づいてキャラクタを動作させる
請求項1に記載の情報処理装置。 A first evaluator that evaluates the presence or absence of an abnormality in the speech recognition process for generating the first sentence information from speech information indicating the speech in the first language;
With
The acquisition unit acquires the first sentence information by executing the voice recognition process,
The information processing apparatus according to claim 1, wherein the motion control unit moves the character based on one or both of a first evaluation by the first evaluation unit and a second evaluation by the second evaluation unit.
請求項2に記載の情報処理装置。 The information processing apparatus according to claim 2, wherein the motion control unit moves the character based on the second sentence information when there is no abnormality in the speech recognition process and there is no abnormality in the translation process. .
請求項2又は請求項3に記載の情報処理装置。 The said action control part operates the said character based on said 1st sentence information, when there is no abnormality in the said speech recognition process and there is abnormality in the said translation process. Information processing device.
を備え、
前記動作制御部は、前記第1言語又は前記第2言語に応じた動作規定情報を参照して前記第1評価と前記第2評価とのいずれか又は両方に対応する動作を選択し、選択した動作を前記キャラクタに行わせる
請求項2から請求項4のいずれか一項に記載の情報処理装置。 A language action information storage unit that stores action definition information that defines a correspondence relationship between the first evaluation and / or the second evaluation and the action of the character, and that is different from each other for each language,
With
The operation control unit selects and selects an operation corresponding to one or both of the first evaluation and the second evaluation with reference to the operation definition information according to the first language or the second language. The information processing apparatus according to claim 2, wherein the character is caused to perform an action.
を備え、
前記動作制御部は、自装置の利用場面に応じた動作規定情報を参照して前記第1評価と前記第2評価とのいずれか又は両方に対応する動作を選択し、選択した動作を前記キャラクタに行わせる
請求項5に記載の情報処理装置。 A scene action storage unit that stores action regulation information that defines the correspondence relationship, which is different action definition information for each use scene and is not defined in the action definition information for each language,
With
The motion control unit selects a motion corresponding to one or both of the first evaluation and the second evaluation with reference to motion regulation information corresponding to a use scene of the device, and selects the selected motion as the character. The information processing apparatus according to claim 5.
前記操作受付部が受け付けた前記操作に基づいて、前記言語動作情報記憶部と前記場面動作記憶部とのいずれか又は両方に、前記動作規定情報を記憶させる動作登録部と、
を備える
請求項6に記載の情報処理装置。 An operation accepting unit for accepting an operation for setting the operation regulation information;
Based on the operation accepted by the operation accepting unit, an operation registration unit that stores the action defining information in either or both of the language action information storage unit and the scene action storage unit;
The information processing apparatus according to claim 6.
前記情報処理装置が、前記第1文章情報が示す文章を、前記第1言語とは異なる第2言語に翻訳した文章を示す第2文章情報を生成する翻訳処理を実行する第2ステップと、
前記情報処理装置が、前記翻訳処理における異常の有無を評価する第3ステップと、
前記情報処理装置が、前記第3ステップにおける評価に基づいてキャラクタを動作させる第4ステップと、
を含む情報処理方法。 A first step in which the information processing apparatus acquires first sentence information indicating a sentence in a first language;
A second step in which the information processing apparatus executes a translation process for generating second sentence information indicating a sentence obtained by translating the sentence indicated by the first sentence information into a second language different from the first language;
A third step in which the information processing apparatus evaluates whether there is an abnormality in the translation process;
A fourth step in which the information processing apparatus moves the character based on the evaluation in the third step;
An information processing method including:
第1言語の文章を示す第1文章情報を取得する第1ステップと、
前記第1文章情報が示す文章を、前記第1言語とは異なる第2言語に翻訳した文章を示す第2文章情報を生成する翻訳処理を実行する第2ステップと、
前記翻訳処理における異常の有無を評価する第3ステップと、
前記第3ステップにおける評価に基づいてキャラクタを動作させる第4ステップと、
を実行させるプログラム。 On the computer,
A first step of acquiring first sentence information indicating a sentence in a first language;
A second step of executing a translation process for generating second sentence information indicating a sentence obtained by translating the sentence indicated by the first sentence information into a second language different from the first language;
A third step of evaluating the presence or absence of abnormality in the translation process;
A fourth step of moving the character based on the evaluation in the third step;
A program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015122667A JP2017009685A (en) | 2015-06-18 | 2015-06-18 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015122667A JP2017009685A (en) | 2015-06-18 | 2015-06-18 | Information processing device, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017009685A true JP2017009685A (en) | 2017-01-12 |
Family
ID=57761447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015122667A Pending JP2017009685A (en) | 2015-06-18 | 2015-06-18 | Information processing device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017009685A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018055983A1 (en) * | 2016-09-23 | 2018-03-29 | パナソニックIpマネジメント株式会社 | Translation device, translation system, and evaluation server |
-
2015
- 2015-06-18 JP JP2015122667A patent/JP2017009685A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018055983A1 (en) * | 2016-09-23 | 2018-03-29 | パナソニックIpマネジメント株式会社 | Translation device, translation system, and evaluation server |
JPWO2018055983A1 (en) * | 2016-09-23 | 2019-01-17 | パナソニックIpマネジメント株式会社 | Translation apparatus, translation system, and evaluation server |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101683943B1 (en) | Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device | |
US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
US7953590B2 (en) | Using separate recording channels for speech-to-speech translation systems | |
JP5967569B2 (en) | Speech processing system | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
US8738375B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
JP2023022150A (en) | Bidirectional speech translation system, bidirectional speech translation method and program | |
CN106558307A (en) | Intelligent dialogue processing equipment, method and system | |
JP2006048628A (en) | Multimodal input method | |
KR20150093482A (en) | System for Speaker Diarization based Multilateral Automatic Speech Translation System and its operating Method, and Apparatus supporting the same | |
JP6150268B2 (en) | Word registration apparatus and computer program therefor | |
US20210383794A1 (en) | Electronic device | |
KR20160138837A (en) | System, method and computer program for speech recognition and translation | |
KR102296878B1 (en) | Foreign language learning evaluation device | |
JP2018185561A (en) | Dialogue support system, dialogue support method, and dialogue support program | |
US11056103B2 (en) | Real-time utterance verification system and method thereof | |
Mirishkar et al. | CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection | |
KR20110065916A (en) | Interpretation system for error correction and auto scheduling | |
KR20210042520A (en) | An electronic apparatus and Method for controlling the electronic apparatus thereof | |
JP2017009685A (en) | Information processing device, information processing method, and program | |
KR20210051523A (en) | Dialogue system by automatic domain classfication | |
JP5733566B2 (en) | Translation apparatus, translation method, and program | |
KR20160138613A (en) | Method for auto interpreting using emoticon and apparatus using the same | |
JP6580281B1 (en) | Translation apparatus, translation method, and translation program |