JP2023084986A - Display control system, display control method, and program - Google Patents
Display control system, display control method, and program Download PDFInfo
- Publication number
- JP2023084986A JP2023084986A JP2021199424A JP2021199424A JP2023084986A JP 2023084986 A JP2023084986 A JP 2023084986A JP 2021199424 A JP2021199424 A JP 2021199424A JP 2021199424 A JP2021199424 A JP 2021199424A JP 2023084986 A JP2023084986 A JP 2023084986A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice
- character string
- confirmation request
- display control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
特許法第30条第2項適用申請有り 令和3年6月15日、https://sourcenext.co.jp/、https://sourcenext.co.jp/pressrelease_html/JS/2021/2021061503/ 令和3年9月9日、https://pocketalk.jp/details/subtitles/、https://pocketalk.com/software/subtitles/verify/
本発明は、表示制御システム、表示制御方法及びプログラムに関する。 The present invention relates to a display control system, display control method and program.
撮影部によって撮影される画像に音声の翻訳結果を表す文字列を重畳させた画像を表示させる技術が存在する。このような技術の一例として、特許文献1には、発話者を撮像した映像信号に発話者が話した音声のデータを翻訳した翻訳後の文字情報を重畳表示した映像データの映像信号を画面に表示させるテレビ会議システムが記載されている。 2. Description of the Related Art There is a technique for displaying an image obtained by superimposing a character string representing a result of speech translation on an image captured by a capturing unit. As an example of such a technique, Patent Document 1 discloses a video signal of video data in which character information obtained by translating speech data of a speaker is superimposed on a video signal obtained by imaging a speaker. A teleconferencing system for displaying is described.
また、数秒間にわたって認識可能な音声の入力がなかったことをトリガに、それまでに入力された音声に対する翻訳を開始する技術が存在する。 There is also a technology that triggers the absence of recognizable speech input for several seconds to start translating the speech that has been input up to that point.
特許文献1に記載の技術において、数秒間にわたって認識可能な音声の入力がなかったことをトリガに、それまでに入力された音声に対する翻訳を開始するようにした場合、音声の入力から当該音声の翻訳結果の表示までの間に一定程度の時間がかかる。そのため、テレビ会議の参加者等は音声の翻訳結果を適時に把握できない。 In the technique described in Patent Document 1, when there is no recognizable speech input for several seconds as a trigger, translation of the speech that has been input up to that point is started. It takes a certain amount of time until the translation result is displayed. Therefore, the participants of the video conference cannot grasp the speech translation result in a timely manner.
本発明は上記課題に鑑みてなされたものであって、その目的の1つは、入力される音声の翻訳結果を適時に表示できる表示制御システム、表示制御方法及びプログラムを提供することにある。 The present invention has been made in view of the above problems, and one of its objects is to provide a display control system, a display control method, and a program capable of displaying a translation result of input speech in a timely manner.
本発明に係る表示制御システムは、発話者により入力される音声を表す音声データを受け付ける音声データ受付手段と、前記発話者により行われる所定の操作に応じて出力される確定要求を受け付ける確定要求受付手段と、前記確定要求の受付をトリガとして、当該確定要求の受付までに受け付けた前記音声データが表す音声の翻訳が開始されるよう制御する翻訳制御手段と、撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を表示部に表示させる翻訳結果表示制御手段と、を含む。 A display control system according to the present invention includes: audio data reception means for receiving audio data representing audio input by a speaker; and confirmation request reception for receiving a confirmation request output in response to a predetermined operation performed by the speaker. means, translation control means for controlling, triggered by acceptance of the confirmation request, to start translating the voice represented by the audio data received by the acceptance of the confirmation request; translation result display control means for causing a display unit to display a screen on which an image superimposed with a character string representing a translation result of the voice represented by the voice data received before the acceptance of the confirmation request is arranged.
本発明の一態様では、前記撮影部によって撮影される画像に前記音声データが表す音声の音声認識結果を表す文字列を重畳させた画像が配置された画面を前記表示部に表示させる音声認識結果表示制御手段、をさらに含み、前記音声認識結果表示制御手段は、前記確定要求の受付よりも前に、前記撮影部によって撮影される画像に受付済の前記音声データが表す音声の音声認識結果を表す文字列を重畳させた画像が配置された画面を前記表示部に表示させる。 In one aspect of the present invention, the display unit displays a screen in which an image obtained by superimposing a character string representing a voice recognition result of the voice represented by the voice data on the image captured by the imaging unit is displayed on the display unit. display control means, wherein the voice recognition result display control means adds the voice recognition result of the voice represented by the received voice data to the image captured by the imaging unit before receiving the confirmation request. A screen on which an image superimposed with a character string representing the object is displayed on the display unit.
また、本発明の一態様では、前記翻訳結果表示制御手段は、前記撮影部によって撮影される画像に、前記確定要求の受付までに受け付けた前記音声データが表す音声の音声認識結果を表す文字列、及び、前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列の両方を重畳させた画像が配置された画面を前記表示部に表示させる。 Further, in one aspect of the present invention, the translation result display control means adds a character string representing a voice recognition result of the voice represented by the voice data received until the confirmation request is received to the image captured by the capturing unit. and a character string representing the translation result of the voice represented by the voice data received before the confirmation request is received.
また、本発明の一態様では、前記撮影部によって撮影される画像に文字列を重畳させた画像をテレビ会議システムに出力する画像出力部、をさらに含み、前記翻訳結果表示制御手段は、前記テレビ会議システムによって生成される前記画面を前記表示部に表示させる。 Further, in one aspect of the present invention, it further includes an image output unit for outputting an image obtained by superimposing a character string on the image captured by the capturing unit to a video conference system, wherein the translation result display control means controls the display of the TV The screen generated by the conference system is displayed on the display unit.
また、本発明の一態様では、前記音声データ受付手段は、前記発話者により端末に入力される音声を表す前記音声データを前記端末から受け付け、前記確定要求受付手段は、前記端末に対して前記発話者により行われる所定の操作に応じて前記端末から送信される前記確定要求を受け付け、前記翻訳結果表示制御手段は、前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を前記端末が備える表示部に表示させ、前記翻訳結果表示制御手段は、前記撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面をクライアント装置が備える表示部に表示させる。 Further, in one aspect of the present invention, the voice data receiving means receives from the terminal the voice data representing voice input by the speaker to the terminal, and the confirmation request receiving means sends the confirmation request to the terminal. The confirmation request transmitted from the terminal in response to a predetermined operation performed by the speaker is received, and the translation result display control means displays the translation result of the speech represented by the received speech data until the reception of the confirmation request. The translation result display control means causes the display unit of the terminal to display the character string representing A display unit of the client device displays a screen on which an image superimposed with a character string representing the character string is arranged.
あるいは、前記音声データ受付手段は、前記発話者によりクライアント装置に入力される音声を表す前記音声データを前記クライアント装置から受け付け、前記確定要求受付手段は、前記クライアント装置に対して前記発話者により行われる所定の操作に応じて前記クライアント装置から送信される前記確定要求を受け付け、前記翻訳結果表示制御手段は、前記撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を前記クライアント装置が備える前記表示部に表示させる。 Alternatively, the voice data receiving means receives from the client device the voice data representing a voice input to the client device by the speaker, and the confirmation request receiving means receives from the client device the confirmation request received by the speaker. The translation result display control means accepts the confirmation request transmitted from the client device in response to a predetermined operation, and the translation result display control means adds the voice data received by the reception of the confirmation request to the image captured by the imaging unit. A screen on which an image superimposed with a character string representing the translation result of the represented voice is displayed on the display unit of the client device.
また、本発明の一態様では、前記翻訳制御手段は、前記確定要求の受付までに受け付けた前記音声データが表す音声の複数の言語への翻訳が開始されるよう制御し、前記翻訳結果表示制御手段は、前記撮影部によって撮影される画像に、前記複数の言語のそれぞれについての、前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を前記表示部に表示させる。 In one aspect of the present invention, the translation control means controls to start translating the voice represented by the voice data received by the time the confirmation request is received into a plurality of languages, and controls the translation result display. means for displaying, on the display unit, a screen in which an image obtained by superimposing a character string representing a translation result of the voice represented by the voice data for each of the plurality of languages on the image captured by the capturing unit is arranged; display.
また、本発明に係る表示制御方法は、発話者により入力される音声を表す音声データを受け付けるステップと、前記発話者により行われる所定の操作に応じて出力される確定要求を受け付けるステップと、前記確定要求の受付をトリガとして、当該確定要求の受付までに受け付けた前記音声データが表す音声の翻訳が開始されるよう制御するステップと、撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を表示部に表示させるステップと、を含む。 Further, a display control method according to the present invention includes the steps of: receiving voice data representing voice input by a speaker; receiving a confirmation request output in response to a predetermined operation performed by the speaker; a step of controlling the reception of a confirmation request as a trigger to start translating the voice represented by the received audio data before the reception of the confirmation request; and causing a display unit to display a screen on which an image superimposed with a character string representing a translation result of the voice represented by the received voice data is arranged.
また、本発明に係るプログラムは、発話者により入力される音声を表す音声データを受け付ける手順、前記発話者により行われる所定の操作に応じて出力される確定要求を受け付ける手順、前記確定要求の受付をトリガとして、当該確定要求の受付までに受け付けた前記音声データが表す音声の翻訳が開始されるよう制御する手順、撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を表示部に表示させる手順、をコンピュータに実行させる。 Further, the program according to the present invention includes a procedure for accepting speech data representing speech input by a speaker, a procedure for accepting a confirmation request output in response to a predetermined operation performed by the speaker, and a procedure for accepting the confirmation request. is used as a trigger to start translating the voice represented by the voice data received before the acceptance of the confirmation request; causes the computer to display, on the display unit, a screen on which an image on which a character string representing the translation result of the speech represented by is superimposed is arranged.
以下、本発明の一実施形態について、図面を参照しながら説明する。 An embodiment of the present invention will be described below with reference to the drawings.
図1は、本実施形態に係るテレビ会議用翻訳システム1の全体構成の一例を示す図である。図2は、本実施形態に係る端末10の背面の一例を示す図である。図3Aは、本実施形態に係る端末10の構成の一例を示す図である。図3Bは、本実施形態に係るクライアント装置12の構成の一例を示す図である。図3Cは、本実施形態に係る中継装置14の構成の一例を示す図である。図3Dは、本実施形態に係る音声処理システム16の構成の一例を示す図である。
FIG. 1 is a diagram showing an example of the overall configuration of a video conference translation system 1 according to this embodiment. FIG. 2 is a diagram showing an example of the back surface of the
図1に示すように、本実施形態に係るテレビ会議用翻訳システム1には、端末10、クライアント装置12、中継装置14、音声処理システム16、及び、テレビ会議システム18が含まれている。端末10、クライアント装置12、中継装置14、音声処理システム16、及び、テレビ会議システム18は、インターネット等のコンピュータネットワーク20に接続されている。そのため端末10、クライアント装置12、中継装置14、音声処理システム16、テレビ会議システム18は、互いに、コンピュータネットワーク20を介して通信可能となっている。
As shown in FIG. 1, the teleconference translation system 1 according to this embodiment includes a
本実施形態に係る端末10は、リモート会議等のテレビ会議に参加するユーザによって利用されるコンピュータである。図3Aに示すように、本実施形態に係る端末10には、例えば、プロセッサ10a、記憶部10b、通信部10c、操作部10d、撮影部10e、タッチパネル10f、マイク10g、スピーカ10hが含まれる。
A terminal 10 according to the present embodiment is a computer used by a user who participates in a video conference such as a remote conference. As shown in FIG. 3A, the terminal 10 according to this embodiment includes, for example, a
プロセッサ10aは、例えば端末10にインストールされるプログラムに従って動作するマイクロプロセッサ等のプログラム制御デバイスである。
The
記憶部10bは、例えばROMやRAM等の記憶素子などである。記憶部10bには、プロセッサ10aによって実行されるプログラムなどが記憶される。
The
通信部10cは、例えばコンピュータネットワーク20を介して中継装置14との間でデータを授受するための通信インタフェースである。ここで通信部10cに、基地局を含む携帯電話回線を経由してインターネット等のコンピュータネットワーク20と通信を行う無線通信モジュールが含まれていてもよい。また通信部10cに、Wi-Fi(登録商標)ルータ等を経由してインターネット等のコンピュータネットワーク20と通信を行う無線LANモジュールが含まれていてもよい。
The
操作部10dは、例えばユーザが行った操作の内容をプロセッサ10aに出力するボタンやタッチセンサ等の操作部材である。図1には、操作部10dの一例として、翻訳対象の音声を入力する際に押下される翻訳ボタン10da、電源のオンやオフを行うための電源ボタン10db、スピーカ10hから出力される音声の音量調整を行うための音量調整部10dcが示されている。翻訳ボタン10daは、端末10の前面に設けられているタッチパネル10fの下側に配置されている。電源ボタン10db、及び、音量調整部10dcは端末10の右側面に配置されている。
The
撮影部10eは、例えばデジタルカメラなどの撮影デバイスである。図2に示すように、本実施形態に係る端末10は、背面に撮影部10eが設けられている。
The photographing
タッチパネル10fは、例えばタッチセンサと液晶ディスプレイや有機ELディスプレイ等のディスプレイとが一体となったものである。タッチパネル10fは、端末10の前面に設けられており、プロセッサ10aが生成する画面などを表示させる。
The
マイク10gは、例えば受け付ける音声を電気信号に変換する音声入力デバイスである。ここでマイク10gが、端末10に内蔵されている、人混みでも人の声が認識しやすいノイズキャンセリング機能を備えたデュアルマイクであってもよい。
The
スピーカ10hは、例えば音声を出力する音声出力デバイスである。ここでスピーカ10hが、端末10に内蔵されている、騒がしい場所でも使えるダイナミックスピーカーであってもよい。
The
本実施形態に係るクライアント装置12は、スマートフォン、タブレット端末、パーソナルコンピュータ、などの一般的なコンピュータである。図3Bに示すように、本実施形態に係るクライアント装置12には、例えば、プロセッサ12a、記憶部12b、通信部12c、操作部12d、撮影部12e、ディスプレイ12f、マイク12g、スピーカ12hが含まれる。
The
本実施形態に係るクライアント装置12は、リモート会議等のテレビ会議が行われている際に、端末10を利用するユーザによって利用されるものである。すなわち、本実施形態では、端末10のユーザとクライアント装置12のユーザとは同じである。
The
プロセッサ12aは、例えばクライアント装置12にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
The
記憶部12bは、例えばROMやRAM等の記憶素子やソリッドステートドライブやハードディスクドライブなどである。記憶部12bには、プロセッサ12aによって実行されるプログラムなどが記憶される。
The
通信部12cは、例えばネットワークボードや無線LANモジュールなどの通信インタフェースなどである。通信部12cは、例えばコンピュータネットワーク20を介して中継装置14やテレビ会議システム18との間でデータを授受する。
The
操作部12dは、例えばキーボードやマウスなどといったユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12aに出力する。
The
撮影部12eは、例えばデジタルビデオカメラなどの撮影デバイスである。撮影部12eは、クライアント装置12のユーザを撮影可能な位置に配置されている。本実施形態に係る撮影部12eは、動画像を撮影できるようになっている。
The photographing
ディスプレイ12fは、例えば液晶ディスプレイや有機ELディスプレイ等の表示デバイスであって、プロセッサ12aの指示に従って各種の画像を表示する。
The
マイク12gは、例えば受け付ける音声を電気信号に変換する音声入力デバイスである。
The
スピーカ12hは、例えば音声を出力する音声出力デバイスである。
The
中継装置14は、本実施形態では例えば、端末10に入力される音声を表す音声データ、当該音声の音声認識結果を表す音声認識結果文字列、当該音声の翻訳結果を表す翻訳結果文字列、などを中継するサーバコンピュータ等のコンピュータシステムである。なお、テレビ会議用翻訳システム1に1台の中継装置14が含まれていてもよいし、複数台の中継装置14が含まれていてもよい。図3Cに示すように、本実施形態に係る中継装置14には、例えば、プロセッサ14a、記憶部14b、通信部14cが含まれる。
In the present embodiment, the
プロセッサ14aは、例えば中継装置14にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
The
記憶部14bは、例えばROMやRAM等の記憶素子やソリッドステートドライブやハードディスクドライブなどである。記憶部14bには、プロセッサ14aによって実行されるプログラムなどが記憶される。
The
通信部14cは、例えばネットワークボードなどの通信インタフェースなどである。通信部14cは、例えばコンピュータネットワーク20を介して端末10、クライアント装置12、及び、音声処理システム16との間でデータを授受する。
The
音声処理システム16は、例えば、受け付ける音声データが表す音声の音声認識や、当該音声の翻訳等の音声処理を実行するサーバコンピュータ等のコンピュータシステムである。なお、音声処理システム16が、1台のコンピュータから構成されていてもよいし、複数台のコンピュータから構成されてもよい。図3Dに示すように、本実施形態に係る音声処理システム16には、例えば、プロセッサ16a、記憶部16b、通信部16cが含まれる。
The
プロセッサ16aは、例えば音声処理システム16にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
The
記憶部16bは、例えばROMやRAM等の記憶素子やソリッドステートドライブやハードディスクドライブなどである。記憶部16bには、プロセッサ16aによって実行されるプログラムなどが記憶される。
The
通信部16cは、例えばネットワークボードなどの通信インタフェースなどである。通信部16cは、例えばコンピュータネットワーク20を介して中継装置14との間でデータを授受する。
The
テレビ会議システム18は、例えば、複数の参加者によるリモート会議等のテレビ会議を実現する一般的なテレビ会議システムである。本実施形態では例えば、クライアント装置12に、テレビ会議システム18と連携して動作する、当該テレビ会議システム18に係るクライアントソフトウェアがインストールされていることとする。
The
本実施形態では予め、テレビ会議システム18の機能によって、端末10及びクライアント装置12のユーザを含む複数の参加者が参加するリモート会議等のテレビ会議が開催された状態となっている。
In this embodiment, a teleconference such as a remote conference in which a plurality of participants including the users of the
また、本実施形態では、予め、ユーザによって端末10に所定の操作が行われることで、端末10に入力される音声の言語である翻訳前言語と、当該音声が翻訳される言語である翻訳後言語と、が設定されている。以下の説明では、翻訳前言語として日本語が設定され、翻訳後言語として英語が設定されていることとする。 Further, in the present embodiment, by performing a predetermined operation on the terminal 10 by the user in advance, a pre-translation language, which is the language of the speech input to the terminal 10, and a post-translation language, which is the language into which the speech is translated. language is set. In the following description, it is assumed that Japanese is set as the pre-translation language and English is set as the post-translation language.
また、本実施形態では、ユーザが端末10に設けられている所定のボタン(ここでは例えば、翻訳ボタン10da)を指で押してから離すまでの間にマイク10gを介して入力された音声に対して、音声認識処理が実行される。また、ユーザが翻訳ボタン10daから指を離したことをトリガに、ユーザが翻訳ボタン10daを指で押してから離すまでの間にマイク10gを介して入力された音声に対して、翻訳処理が実行される。以下、翻訳ボタン10daが押下されている状態を入力オン状態と呼び、翻訳ボタン10daが押下されていない状態を入力オフ状態と呼ぶこととする。
Further, in the present embodiment, the voice input through the
本実施形態では例えば、入力オン状態である間は、逐次、入力オフ状態から当該入力オン状態に変化したタイミングから現時点までの間に入力された音声に対して音声認識処理が実行される。そして、当該音声に対する音声認識結果を表す文字列である音声認識結果文字列が、クライアント装置12のディスプレイ12fに表示されるとともに、端末10のタッチパネル10fにも表示される。
In the present embodiment, for example, during the input ON state, speech recognition processing is sequentially performed on voices input from the timing when the input OFF state changes to the input ON state to the present time. Then, a speech recognition result character string, which is a character string representing the speech recognition result for the speech, is displayed on the
図4は、クライアント装置12のディスプレイ12fに表示されるリモート会議等のテレビ会議の画面であるテレビ会議画面30の一例を示す図である。図4に示すように、本実施形態では例えば、端末10への音声入力を行った発話者であるユーザを撮影した撮影画像に音声認識結果文字列が重畳された重畳画像32を含むテレビ会議画面30がディスプレイ12fに表示される。本実施形態に係る撮影画像は、例えば、撮影部12eによって撮影された画像である。なお、本実施形態に係る撮影画像が、撮影部10eによって撮影された画像であってもよい。
FIG. 4 is a diagram showing an example of a
図5は、端末10のタッチパネル10fに表示される音声認識結果画像34の一例を示す図である。図5に示すように、本実施形態では、図4に示すテレビ会議画面30に配置される文字列と同じ文字列が音声認識結果画像34にも配置される。
FIG. 5 is a diagram showing an example of the voice recognition result
本実施形態では上述のように、端末10が入力オン状態である間は、逐次、端末10が入力オフ状態から入力オン状態に変化したタイミングから現時点までの間に入力された音声に対して音声認識処理が実行される。そして、音声認識処理が実行される度にタッチパネル10fやディスプレイ12fに表示される音声認識結果文字列は更新される。
In the present embodiment, as described above, while the terminal 10 is in the input-on state, voice input is sequentially performed from the timing when the terminal 10 changes from the input-off state to the input-on state to the present time. Recognition processing is performed. Then, the voice recognition result character string displayed on the
そして、ユーザが翻訳ボタン10daから指を離し、端末10が入力オフ状態になると、端末10から中継装置14に確定要求が送信される。そして、端末10が入力オン状態であった間に入力された音声に対して最終の音声認識処理が実行される。そして、当該音声認識処理の結果を表す音声認識結果文字列に対して翻訳処理が実行され、当該音声認識結果文字列を翻訳した翻訳結果文字列が生成される。ここでは例えば、日本語の文字列である音声認識結果文字列を翻訳した英語の文字列である翻訳結果文字列が生成される。
Then, when the user releases the translation button 10da and the terminal 10 enters an input off state, the terminal 10 transmits a confirmation request to the
そして、このようにして生成される音声認識文字列及び翻訳結果文字列が、クライアント装置12のディスプレイ12fに表示されるとともに、端末10のタッチパネル10fにも表示される。
The speech recognition character string and the translation result character string thus generated are displayed on the
例えば、図6に示すように、端末10への音声入力を行った発話者であるユーザを撮影した撮影画像に音声認識結果文字列及び翻訳結果文字列を重畳した重畳画像32が配置されたテレビ会議画面30がディスプレイ12fに表示される。
For example, as shown in FIG. 6, a television in which a
また、図7に示すように、図6に示すテレビ会議画面30に配置されている音声認識結果文字列と同じ文字列、及び、図6に示すテレビ会議画面30に配置されている翻訳結果文字列と同じ文字列が配置された翻訳結果画像36がタッチパネル10fに表示される。
Further, as shown in FIG. 7, the same character string as the speech recognition result character string arranged on the
図6には、説明の都合上、翻訳結果文字列が視認しやすいテレビ会議画面30が示されているが、実際には、翻訳結果文字列が配置される画面の背景の画像(ここでは例えば撮影画像)によっては表示されている翻訳結果文字列が見にくくなり、発話者であるユーザが翻訳結果を的確に把握できないことがあった。
For convenience of explanation, FIG. 6 shows the
本実施形態では、図7に示すように、図6に示す翻訳結果文字列と同じ文字列が配置された翻訳結果画像36が端末10のタッチパネル10fに表示される。
In this embodiment, as shown in FIG. 7, a
このようにして、本実施形態によれば、ユーザが入力する音声の翻訳結果を当該ユーザが的確に把握できることとなる。 In this manner, according to the present embodiment, the user can accurately grasp the translation result of the speech input by the user.
また、図4及び図6には、説明の都合上、音声認識結果文字列が視認しやすいテレビ会議画面30が示されているが、実際には、音声認識結果文字列が配置される画面の背景の画像(ここでは例えば撮影画像)によっては表示されている音声認識結果文字列が見にくくなり、発話者であるユーザが音声認識結果を的確に把握できないことがあった。
4 and 6 show the
本実施形態では、図5に示すように、図4に示す音声認識結果文字列と同じ文字列が配置された音声認識結果画像34が端末10のタッチパネル10fに表示される。また、図7に示すように、図6に示す音声認識結果文字列と同じ文字列が配置された翻訳結果画像36が端末10のタッチパネル10fに表示される。
In this embodiment, as shown in FIG. 5, a speech recognition result
このようにして、本実施形態によれば、ユーザが入力する音声の音声認識結果を当該ユーザが的確に把握できることとなる。 In this manner, according to the present embodiment, the user can accurately grasp the speech recognition result of the speech input by the user.
また、本実施形態では、中継装置14が確定要求を受け付けたことをトリガとして、当該確定要求の受付までに受け付けた音声データが表す音声の翻訳が開始される。このようにすることで、数秒間にわたって認識可能な音声の入力がなかったことをトリガに、それまでに入力された音声に対する翻訳を開始する場合と比較して、音声の入力が開始されてから当該音声が翻訳されるまでの時間が短くなる。このようにして本実施形態によれば、入力される音声の翻訳結果が適時に表示できることとなる。
Further, in the present embodiment, the reception of the confirmation request by the
以下、本実施形態に係るテレビ会議用翻訳システム1の機能、及び、テレビ会議用翻訳システム1で実行される処理についてさらに説明する。 The functions of the videoconference translation system 1 according to the present embodiment and the processing executed by the videoconference translation system 1 will be further described below.
図8Aは、本実施形態に係る端末10、中継装置14、及び、音声処理システム16で実装される機能の一例を示す機能ブロック図である。図8Bは、本実施形態に係るクライアント装置12で実装される機能の一例を示す機能ブロック図である。
FIG. 8A is a functional block diagram showing an example of functions implemented by the terminal 10, the
なお、本実施形態に係る端末10、中継装置14、及び、音声処理システム16で、図8Aに示す機能のすべてが実装される必要はなく、また、図8Aに示す機能以外の機能が実装されていても構わない。また、本実施形態に係るクライアント装置12で、図8Bに示す機能のすべてが実装される必要はなく、また、図8Bに示す機能以外の機能が実装されていても構わない。
Note that the terminal 10, the
図8Aに示すように、本実施形態に係る端末10には、機能的には例えば、操作入力受付部40、音声入力受付部42、音声バッファ44、入力送信部46、文字列受信部48、表示制御部50、が含まれる。操作入力受付部40は、プロセッサ10a、操作部10d、及び、タッチパネル10fを主として実装される。音声入力受付部42は、プロセッサ10a、及び、マイク10gを主として実装される。音声バッファ44は、記憶部10bを主として実装される。入力送信部46、文字列受信部48は、通信部10cを主として実装される。表示制御部50は、プロセッサ10a、及び、タッチパネル10fを主として実装される。
As shown in FIG. 8A, the terminal 10 according to the present embodiment functionally includes, for example, an operation
以上の機能は、コンピュータである端末10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ10aで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して端末10に供給される。
The functions described above are implemented by causing the
図8Bに示すように、本実施形態に係るクライアント装置12には、機能的には例えば、音声入力受付部60、文字列受信部62、撮影画像取得部64、重畳画像生成部66、テレビ会議クライアント部68、音声出力制御部70、表示制御部72、が含まれる。音声入力受付部60は、プロセッサ12a、及び、マイク12gを主として実装される。文字列受信部62は、通信部12cを主として実装される。撮影画像取得部64は、プロセッサ12a、及び、撮影部12eを主として実装される。重畳画像生成部66は、プロセッサ12aを主として実装される。テレビ会議クライアント部68は、プロセッサ12a、及び、通信部12cを主として実装される。音声出力制御部70は、プロセッサ12a、及び、スピーカ12hを主として実装される。表示制御部72は、プロセッサ12a、及び、ディスプレイ12fを主として実装される。
As shown in FIG. 8B, the
以上の機能は、コンピュータであるクライアント装置12にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12aで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してクライアント装置12に供給される。
The functions described above are implemented by causing the
図8Aに示すように、本実施形態に係る中継装置14には、機能的には例えば、入力中継部80、音声バッファ82、文字列中継部84、が、含まれる。入力中継部80、文字列中継部84は、通信部14cを主として実装される。音声バッファ82は、記憶部14bを主として実装される。
As shown in FIG. 8A, the
以上の機能は、コンピュータである中継装置14にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ14aで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して中継装置14に供給される。
The functions described above are implemented by causing the
図8Aに示すように、本実施形態に係る音声処理システム16には、機能的には例えば、音声認識部90、翻訳部92、が含まれる。音声認識部90、翻訳部92は、プロセッサ16a、及び、通信部16cを主として実装される。
As shown in FIG. 8A, the
以上の機能は、コンピュータである音声処理システム16にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ16aで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して音声処理システム16に供給される。
The functions described above are implemented by causing the
端末10の操作入力受付部40は、本実施形態では例えば、ユーザが翻訳ボタン10daを指で押下する操作や翻訳ボタン10daから指を離す操作などといった端末10に対する操作入力を受け付ける。
In this embodiment, the operation
端末10の音声入力受付部42は、本実施形態では例えば、端末10が入力オン状態である間にマイク10gを介して発話者により入力される音声を受け付ける。
In this embodiment, for example, the voice
端末10の音声バッファ44は、本実施形態では例えば、マイク10gを介して入力される音声を表す音声データを記憶する。
The
端末10の入力送信部46は、本実施形態では例えば、操作入力受付部40が受け付ける操作入力に応じた操作信号を中継装置14に送信する。
The
また、入力送信部46は、本実施形態では例えば、端末10に入力される音声を表す音声データを中継装置14に送信する。
Also, in the present embodiment, the
本実施形態では例えば、端末10が入力オフ状態から入力オン状態に変化したことに応じて、入力送信部46は、通信開始要求を中継装置14に送信する。そして、端末10が入力オフ状態から入力オン状態に変化してから、中継装置14と端末10との間の通信が確立されるまでの間にマイク10gを介して入力される音声を表す音声データは、音声バッファ44に蓄積される。
In the present embodiment, for example, the
そして、中継装置14と端末10との間の通信が確立される(すなわち、端末10が中継装置14に接続される)と、入力送信部46は、音声バッファ44に蓄積されている音声データを中継装置14に送信する。一般的には例えば、音声バッファ44に蓄積されている、2秒間の長さの音声を表す音声データが、0.1秒程度で送信される。
Then, when communication is established between the
そして、音声バッファ44に蓄積されている音声データがすべて中継装置14に送信された後は、入力送信部46は、端末10が入力オン状態である間、音声入力受付部42が受け付ける音声を表す音声データのパケットを中継装置14にストリーム送信する。この場合、音声データのパケットは、音声バッファ44に蓄積されることなく中継装置14に直接リアルタイム送信される。なお、音声データのパケットに、翻訳前言語を示す翻訳前言語データと、翻訳後言語を示す翻訳後言語データと、が含まれていてもよい。
After all the audio data accumulated in the
中継装置14の入力中継部80は、本実施形態では例えば、入力送信部46から送信される音声データを受け付ける。そして、入力中継部80は、受け付けた音声データを、音声処理システム16の音声認識部90に送信する。例えば、入力中継部80は、入力送信部46からストリーム送信される音声データのパケットを受信して、当該パケットを音声処理システム16の音声認識部90に送信する。
The
なお、本実施形態において、音声処理システム16が、それぞれ異なる言語に対応付けられる複数の音声認識部90を含んでいてもよい。そして、入力中継部80は、受け付けた音声データを、翻訳後言語に対応付けられる音声認識部90に送信してもよい。
In addition, in this embodiment, the
なお、本実施形態では、入力中継部80は、入力送信部46から送信されるパケットを受け付けると、当該パケットを、一旦、音声バッファ82に記憶させる。そして、入力中継部80は、音声バッファ82に記憶されたパケットを音声処理システム16の音声認識部90に送信する。このようにすることで、音声処理システム16と中継装置14との間の通信における通信エラーが発生しても、パケットの送信をリトライすることが可能となる。
In this embodiment, upon receiving a packet transmitted from the
音声処理システム16の音声認識部90は、本実施形態では例えば、中継装置14の入力中継部80から送信される音声データのパケットを受信する。
The
そして、音声処理システム16の音声認識部90は、本実施形態では例えば、受信する音声データが表す音声に対して音声認識処理を実行して、当該音声の音声認識結果を表す音声認識結果文字列を生成する。ここで、例えば、音声認識部90が音声データのパケットを受信する度に、逐次、端末10が中継装置14に接続されてから当該パケットを受信するまでに受信した音声データに対して音声認識処理が実行され、音声認識結果文字列が生成されるようにしてもよい。
Then, in this embodiment, the
そして、音声処理システム16の音声認識部90は、本実施形態では例えば、音声認識部90によって生成される音声認識結果文字列を中継装置14に送信する。ここで、音声認識処理が逐次実行される場合、音声認識結果文字列が生成される度に、生成された音声認識結果文字列が中継装置14に送信されるようにしてもよい。
Then, the
中継装置14の文字列中継部84は、本実施形態では例えば、上述の音声認識結果文字列を受信する。
The character
そして、端末10が入力オン状態から入力オフ状態に変化したことに応じて、入力送信部46は、確定要求を中継装置14に送信する。なお、入力オン状態から入力オフ状態に変化した際に音声バッファ44に蓄積されている音声データが存在する場合は、入力送信部46は、音声バッファ44に蓄積されている音声データを中継装置14に送信してから、確定要求を中継装置14に送信する。また、入力オン状態から入力オフ状態に変化した際に音声バッファ44に蓄積されている音声データが存在しない場合は、入力送信部46は、直ちに確定要求を中継装置14に送信する。一般的には、入力オン状態から入力オフ状態に変化した際には、音声バッファ44に蓄積されている音声データが存在しないことが多く、入力オン状態から入力オフ状態に変化したタイミングには、ほぼすべての音声データが送信済の状態となる。
Then, in response to the terminal 10 changing from the input-on state to the input-off state, the
なお、本実施形態において、所定時間(例えば、30秒)にわたって端末10に音声が入力された際には、そのタイミングで音声の受付を終了し、確定要求が送信されるようにしてもよい。 In this embodiment, when voice is input to the terminal 10 for a predetermined period of time (for example, 30 seconds), acceptance of voice may be terminated at that timing and a confirmation request may be transmitted.
中継装置14の入力中継部80は、本実施形態では例えば、発話者により行われる所定の操作(ここでは例えば、翻訳ボタン10daから指を離す操作)に応じて出力される確定要求を受け付ける。例えば、中継装置14の入力中継部80は、発話者が翻訳ボタン10daから指を離す操作を行うことにより入力送信部46から送信される確定要求を受け付ける。
In the present embodiment, the
中継装置14の文字列中継部84は、本実施形態では例えば、入力中継部80による確定要求の受付をトリガとして、当該確定要求の受付までに受け付けた音声データが表す音声の翻訳が開始されるよう制御する。例えば、中継装置14の文字列中継部84は、入力中継部80が確定要求を受信したことに応じて、端末10が中継装置14に接続されてから確定要求を受信するまでに受信した音声データが表す音声の音声認識結果を表す音声認識文字列を音声処理システム16の翻訳部92に送信する。
In this embodiment, for example, the character
なお、本実施形態において、音声処理システム16が、それぞれ異なる言語に対応付けられる複数の翻訳部92を含んでいてもよい。そして、文字列中継部84は、音声認識文字列を、翻訳後言語に対応付けられる翻訳部92に送信してもよい。
In addition, in this embodiment, the
音声処理システム16の翻訳部92は、本実施形態では例えば、文字列中継部84によって送信される音声認識結果文字列を受信する。そして、音声処理システム16の翻訳部92は、受信した音声認識結果文字列に対して翻訳処理を実行する。そして、翻訳部92は、当該翻訳処理の結果を表す翻訳結果文字列を生成する。
The translation unit 92 of the
そして、翻訳部92は、本実施形態では例えば、上述のようにして生成される翻訳結果文字列を中継装置14に送信する。
Then, in the present embodiment, for example, the translation unit 92 transmits the translation result character string generated as described above to the
また、中継装置14の文字列中継部84は、本実施形態では例えば、上述の音声データが表す音声の音声認識結果を表す音声認識結果文字列を端末10の通信部10c及びクライアント装置12の通信部12cの両方に送信する。例えば、文字列中継部84は、音声処理システム16の音声認識部90から音声認識結果文字列を受信したことに応じて、当該音声認識文字列を端末10とクライアント装置12の両方に送信する。
Further, in the present embodiment, the character
また、中継装置14の文字列中継部84は、本実施形態では例えば、上述の音声データが表す音声の翻訳結果を表す翻訳結果文字列を端末10の通信部10c及びクライアント装置12の通信部12cの両方に送信する。例えば、文字列中継部84は、音声処理システム16の翻訳部92から翻訳結果文字列を受信したことに応じて、当該翻訳結果文字列を端末10とクライアント装置12の両方に送信する。
Further, in the present embodiment, the character
端末10の文字列受信部48は、本実施形態では例えば、中継装置14から送信される音声認識結果文字列を受信する。
The character
また、端末10の文字列受信部48は、本実施形態では例えば、中継装置14から送信される翻訳結果文字列を受信する。
Further, the character
端末10の表示制御部50は、例えば、文字列受信部48が受信する音声認識結果文字列を端末10の表示部(例えばタッチパネル10f)に表示させる。また、表示制御部50は、例えば、文字列受信部48が受信する翻訳結果文字列を端末10の表示部(例えばタッチパネル10f)に表示させる。
The
ここで、図7に示すように、表示制御部50が、文字列受信部48が受信する音声認識結果文字列及び翻訳結果文字列の両方が配置された画像である翻訳結果画像36を生成してもよい。そして、表示制御部50が、翻訳結果画像36をタッチパネル10fに表示させてもよい。
Here, as shown in FIG. 7, the
なお、本実施形態において、表示制御部50は、単一色である背景上に当該背景とは異なる色で文字列受信部48が受信する文字列をタッチパネル10fに表示させてもよい。こうすれば、ユーザが入力する音声の翻訳結果や音声認識結果などを当該ユーザがより的確に把握できることとなる。
In the present embodiment, the
クライアント装置12の音声入力受付部60は、本実施形態では例えば、マイク12gを介して入力されるユーザの音声を受け付ける。そして、音声入力受付部60は、入力された音声を表す音声データをテレビ会議クライアント部68に出力する。
The voice
クライアント装置12の文字列受信部62は、本実施形態では例えば、中継装置14から送信される音声認識結果文字列を受信する。
The character
また、クライアント装置12の文字列受信部62は、本実施形態では例えば、中継装置14から送信される翻訳結果文字列を受信する。
Further, the character
撮影画像取得部64は、本実施形態では例えば、撮影部12eによって撮影される画像である撮影画像を取得する。
The captured
重畳画像生成部66は、本実施形態では例えば、上述の撮影画像に文字列受信部62が受信する音声認識結果文字列を重畳させた画像である重畳画像32を生成する。また、重畳画像生成部66は、本実施形態では例えば、上述の撮影画像に文字列受信部62が受信する翻訳結果文字列を重畳させた画像である重畳画像32を生成する。
In the present embodiment, the superimposed
ここで、図6に示すように、重畳画像生成部66が、上述の撮影画像に文字列受信部62が受信する翻訳結果文字列及び音声認識結果文字列の両方を重畳させた画像である重畳画像32を生成してもよい。
Here, as shown in FIG. 6, the superimposed
そして、重畳画像生成部66は、本実施形態では例えば、生成される重畳画像32をテレビ会議クライアント部68に出力する。
Then, the superimposed
クライアント装置12のテレビ会議クライアント部68は、本実施形態では例えば、テレビ会議システム18と連携して、テレビ会議に係る各種の処理を実行する。
In this embodiment, for example, the
テレビ会議クライアント部68は、例えば、上述の撮影画像に文字列受信部62が受信する文字列を重畳させた重畳画像32をテレビ会議システム18に出力してもよい。例えば、テレビ会議クライアント部68は、重畳画像生成部66から受け付ける重畳画像32をテレビ会議システム18に出力してもよい。
The
また、テレビ会議クライアント部68は、例えば、音声入力受付部60から受け付ける音声データをテレビ会議システム18に出力してもよい。
Further, the
そして、テレビ会議クライアント部68は、本実施形態では例えば、テレビ会議システム18によって生成される、図4及び図6に示されているテレビ会議画面30を表示制御部72に出力する。
The
また、テレビ会議クライアント部68は、本実施形態では例えば、テレビ会議システム18によって生成される、テレビ会議での発言者に係る音声を表す音声データを音声出力制御部70に出力する。
Also, in the present embodiment, the
クライアント装置12の音声出力制御部70は、本実施形態では例えば、テレビ会議クライアント部68から受け付ける音声データが表す音声をスピーカ12hから出力させる。
In this embodiment, the audio
クライアント装置12の表示制御部72は、本実施形態では例えば、撮影部12eによって撮影される画像に音声データが表す音声の音声認識結果を表す文字列を重畳させた画像が配置された画面をディスプレイ12fに表示させる。ここで、表示制御部72は、確定要求の受付よりも前に、撮影部12eによって撮影される画像に受付済の音声データが表す音声の音声認識結果を表す文字列を重畳させた画像が配置された画面をディスプレイ12fに表示させてもよい。例えば、クライアント装置12の表示制御部72は、上述の撮影画像に文字列受信部62が受信する文字認識結果文字列を重畳させた画像が配置された画面をクライアント装置12のディスプレイ12fに表示させる。
In this embodiment, for example, the
また、表示制御部72は、本実施形態では例えば、撮影部12eによって撮影される画像に確定要求の受付までに受け付けた音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面をディスプレイ12fに表示させる。例えば、クライアント装置12の表示制御部72は、上述の撮影画像に文字列受信部62が受信する翻訳結果文字列を重畳させた画像が配置された画面をクライアント装置12のディスプレイ12fに表示させる。
Further, in the present embodiment, the
ここで、表示制御部72は、図6に示すように、上述の撮影画像に文字列受信部62が受信する翻訳結果文字列及び音声認識結果文字列の両方を重畳させた重畳画像32が配置されたテレビ会議画面30をディスプレイ12fに表示させてもよい。
Here, as shown in FIG. 6, the
また、表示制御部72は、テレビ会議システム18によって生成される画面をディスプレイ12fに表示させてもよい。例えば、表示制御部72が、テレビ会議クライアント部68から受け付けるテレビ会議画面30をディスプレイ12fに表示させてもよい。
Further, the
ここで、中継装置14で実行される音声データの中継処理の流れの一例を、図9に示すフロー図を参照しながら説明する。
An example of the flow of audio data relay processing executed by the
本処理例では、入力中継部80が、端末10の入力送信部46から送信される通信開始要求の受信を監視する(S101)。
In this processing example, the
入力中継部80が、端末10の入力送信部46から通信開始要求を受信すると、入力中継部80は、中継装置14と端末10との間の通信を確立する(S102)。
When the
そして、入力中継部80は、音声データのパケットの受信を監視する(S103)。入力中継部80が、音声データのパケットを受信すると、受信したパケットを音声バッファ82に記憶させる(S104)。
Then, the
そして、入力中継部80は、S104に示す処理で音声バッファ82に記憶されたパケットを音声処理システム16の音声認識部90に送信して、S103に示す処理に戻る。
Then, the
S103~S105に示す処理は、後述のS207に示す処理が実行されるまで継続される。 The processes shown in S103 to S105 are continued until the process shown in S207, which will be described later, is executed.
次に、中継装置14で実行される文字列の中継処理の流れの一例を、図10に示すフロー図を参照しながら説明する。
Next, an example of the flow of character string relay processing executed by the
本処理例では、文字列中継部84が、音声処理システム16の音声認識部90から送信される音声認識結果文字列の受信を監視する(S201)。文字列中継部84が、音声認識結果文字列を受信すると、受信した音声認識結果文字列をクライアント装置12の文字列受信部62に送信する(S202)。
In this processing example, the character
そして、文字列中継部84は、入力中継部80が確定要求を受信したか否かを確認する(S203)。確定要求の受信が確認されなかった場合は(S203:N)、S201に示す処理に戻る。確定要求の受信が確認された場合は(S203:Y)、文字列中継部84は、確定要求の受信までに受信した音声データが表す音声の音声認識結果を表す音声認識結果文字列を音声処理システム16の翻訳部92に送信する(S204)。
Then, the character
そして、文字列中継部84は、音声処理システム16の翻訳部92から送信される、S203に示す処理で送信された音声認識結果文字列を翻訳した翻訳結果文字列を受信する(S205)。
Then, the character
そして、文字列中継部84は、確定フラグ、S205に示す処理で受信した翻訳結果文字列、及び、確定要求の受信までに受信した音声データが表す音声の音声認識結果を表す音声認識結果文字列を、クライアント装置12の文字列受信部62に送信する(S206)。
Then, the character
そして、文字列中継部84は、中継装置14と端末10との間の通信を切断して(S207)、本処理例に示す処理は終了される。S207に示す処理が実行されることによって、S103~S105に示す処理も終了される。
Then, the character
次に、クライアント装置12で実行される重畳画像32の生成処理の流れの一例を、図11に示すフロー図を参照しながら説明する。本処理例では、撮影部12eが撮影画像を撮影するフレームレートで以下のS301~S305に示す処理が繰り返し実行される。本実施形態において、例えば、S301~S305に示す処理が1/30秒間隔で実行されてもよい。なお、S301~S305に示す処理の実行間隔は1/30秒よりも長い間隔(あるいは、短い間隔)であってもよい。また、実行間隔がユーザによって調整可能であってもよい。
Next, an example of the flow of processing for generating the
まず、撮影画像取得部64が、当該フレームにおける撮影画像を取得する(S301)。
First, the captured
そして、重畳画像生成部66が、S202に示す処理が前回実行されたタイミング以降に、文字列受信部62が確定フラグを受信したか否かを確認する(S302)。
Then, the superimposed
確定フラグを受信していないことが確認された場合は(S302:N)、重畳画像生成部66は、S301に示す処理で取得された撮影画像に、文字列受信部62が受信した最新の音声認識結果文字列が重畳された、重畳画像32を生成する(S303)。
When it is confirmed that the confirmation flag has not been received (S302: N), the superimposed
確定フラグを受信したことが確認された場合は(S302:Y)、重畳画像生成部66は、S301に示す処理で取得された撮影画像に、文字列受信部62が受信した最新の音声認識結果文字列及び最新の翻訳結果文字列が重畳された、重畳画像32を生成する(S304)。
When it is confirmed that the confirmation flag has been received (S302: Y), the superimposed
そして、重畳画像生成部66は、S303又はS304に示す処理で生成された重畳画像32をテレビ会議クライアント部68に出力して(S305)、S301に示す処理に戻る。
Then, the superimposed
本実施形態において、撮影画像内における表示可能エリアがユーザによって設定可能であってもよい。例えば、上段、下段、全体、などのうちから表示可能エリアが選択可能であってもよい。また、音声認識結果文字列の表示可能エリアと、翻訳結果文字列の表示可能エリアとが別々に設定可能であってもよい。例えば、図4、及び、図6は、音声認識結果文字列の表示可能エリアとして下段が設定された際のテレビ会議画面30の一例が示されている。また、図6には、翻訳結果文字列の表示可能エリアとして全体が設定された際のテレビ会議画面30の一例が示されている。
In this embodiment, the displayable area within the captured image may be settable by the user. For example, the displayable area may be selectable from upper, lower, entire, and the like. Also, the displayable area for the speech recognition result character string and the displayable area for the translation result character string may be set separately. For example, FIGS. 4 and 6 show an example of the
また、本実施形態において、日本語などの単語を区切るスペースのない言語の文字列は所定の文字数で改行されるようにしてもよい。また、英語などの単語を区切るスペースがある言語の文字列は所定の文字数でワードラップ処理が実行されるようにしてもよい。 Further, in this embodiment, a character string in a language such as Japanese that does not have a space to separate words may be line-wrapped at a predetermined number of characters. Also, a character string in a language such as English that has spaces separating words may be word-wrapped for a predetermined number of characters.
また、可読性を高めるため、翻訳結果文字列の文字サイズが、音声認識結果文字列の文字サイズよりも大きくてもよい。 Also, in order to improve readability, the character size of the translation result character string may be larger than the character size of the speech recognition result character string.
また、本実施形態において、翻訳結果文字列と音声認識結果文字列の両方が撮影画像に重畳される必要はない。例えば、翻訳結果文字列が撮影画像に重畳される際には音声認識結果文字列は撮影画像に重畳されないようしてもよい。 Moreover, in the present embodiment, both the translation result character string and the voice recognition result character string need not be superimposed on the captured image. For example, when the translation result character string is superimposed on the captured image, the speech recognition result character string may not be superimposed on the captured image.
また、本実施形態において、音声認識結果文字列の文字サイズが固定サイズであり、翻訳結果文字列の文字サイズが可変サイズであってもよい。 Further, in the present embodiment, the character size of the speech recognition result character string may be a fixed size, and the character size of the translation result character string may be a variable size.
この場合、翻訳結果文字列に含まれる文字の最大の文字サイズが、画面の高さに対して所定の割合を乗じたサイズであってもよい。そして、1行の文字数が増えるに従い、翻訳結果文字列の文字サイズが小さくなるようにしてもよい。 In this case, the maximum character size of characters included in the translation result character string may be a size obtained by multiplying the height of the screen by a predetermined ratio. Then, the character size of the translation result character string may be made smaller as the number of characters in one line increases.
なお、音声認識結果文字列の文字サイズが可変サイズでもよい。また、翻訳結果文字列の文字サイズが固定サイズであってもよい。 Note that the character size of the speech recognition result character string may be variable. Also, the character size of the translation result character string may be a fixed size.
また、本実施形態において、表示可能エリアのサイズに対応する表示可能文字数が予め定められていてもよい。そして、表示可能文字数よりも多い文字数の音声認識結果文字列が撮影画像に重畳される際には、当該音声認識結果文字列は表示可能エリアの高さに収まるよう縮小された上で撮影画像に重畳されてもよい。また、表示可能文字数よりも多い文字数の翻訳結果文字列が撮影画像に重畳される際には、当該翻訳結果文字列は表示可能エリアの高さに収まるよう縮小された上で撮影画像に重畳されてもよい。 Also, in the present embodiment, the number of displayable characters corresponding to the size of the displayable area may be predetermined. When a voice recognition result character string with a number of characters larger than the number of characters that can be displayed is superimposed on the captured image, the voice recognition result character string is reduced to fit within the height of the displayable area and then superimposed on the captured image. It may be superimposed. Also, when a translated character string with more characters than the number of characters that can be displayed is superimposed on the captured image, the translated character string is reduced to fit within the height of the displayable area and then superimposed on the captured image. may
また、本実施形態において、文字列中継部84が、入力中継部80による音声データのパケットの受信が所定時間(例えば、1.5秒)途切れたことをトリガとして、現在までに受け付けた音声データが表す音声の翻訳が開始されるよう制御してもよい。例えば、中継装置14の文字列中継部84は、入力中継部80による音声データのパケットの受信が所定時間(例えば、1.5秒)途切れたことに応じて、端末10が中継装置14に接続されてから現在までに受信した音声データが表す音声の音声認識結果を表す音声認識文字列を音声処理システム16の翻訳部92に送信してもよい。
Further, in the present embodiment, the character
また、テレビ会議画面30とは別の画面(例えば、ブラウザ)に、音声認識結果文字列と翻訳結果文字列の一覧(ログ)が表示されるようにしてもよい。そして、このログがクライアント装置12の記憶部12b等の記憶媒体に保存できるようになっていてもよい。また、上述の翻訳後言語とは異なる言語に翻訳された、音声認識結果文字列を翻訳した翻訳結果文字列がブラウザに表示されるようにしてもよい。
Also, a list (log) of the speech recognition result character strings and the translation result character strings may be displayed on a screen (for example, a browser) other than the
また、テレビ会議用翻訳システム1の端末10の機能がクライアント装置12において実装されてもよい。
Also, the functions of the terminal 10 of the video conference translation system 1 may be implemented in the
例えば、図12に示すように、クライアント装置12が、ディスプレイ12fに翻訳ボタン94を表示させる機能を備えていてもよい。そして、ディスプレイ12fに、テレビ会議画面30に加え、翻訳ボタン94が表示されるようにしてもよい。そして、例えば発話者がクリック操作などの所定の操作を翻訳ボタン94に対して行う度に、クライアント装置12において上述の入力オン状態と入力オフ状態が切り替わるようにしてもよい。そして、入力オン状態である間に入力された音声についての音声認識結果文字列や翻訳結果文字列がテレビ会議画面30に表示されるようにしてもよい。
For example, as shown in FIG. 12, the
図13は、図1~図11を参照して説明した一実施形態の変形例に係るクライアント装置12で実装される機能の一例を示す機能ブロック図である。本実施形態に係るクライアント装置12で、図13に示す機能のすべてが実装される必要はなく、また、図13に示す機能以外の機能が実装されていても構わない。
FIG. 13 is a functional block diagram showing an example of functions implemented in the
図13に示すように、当該変形例に係るクライアント装置12には、機能的には例えば、操作入力受付部40、音声バッファ44、入力送信部46、音声入力受付部60、文字列受信部62、撮影画像取得部64、重畳画像生成部66、テレビ会議クライアント部68、音声出力制御部70、表示制御部72、が含まれる。操作入力受付部40は、プロセッサ12a、及び、操作部12dを主として実装される。音声バッファ44は、記憶部12bを主として実装される。入力送信部46、文字列受信部62は、通信部12cを主として実装される。音声入力受付部60は、プロセッサ12a、及び、マイク12gを主として実装される。撮影画像取得部64は、プロセッサ12a、及び、撮影部12eを主として実装される。重畳画像生成部66は、プロセッサ12aを主として実装される。テレビ会議クライアント部68は、プロセッサ12a、及び、通信部12cを主として実装される。音声出力制御部70は、プロセッサ12a、及び、スピーカ12hを主として実装される。表示制御部72は、プロセッサ12a、及び、ディスプレイ12fを主として実装される。
As shown in FIG. 13 , the
以上の機能は、コンピュータであるクライアント装置12にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12aで実行することにより実装される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してクライアント装置12に供給される。
The functions described above are implemented by causing the
操作入力受付部40は、本実施形態では例えば、ディスプレイ12fに翻訳ボタン94を表示させる。そして、操作入力受付部40は、本実施形態では例えば、翻訳ボタン94をクリックする操作などといった操作入力を受け付ける。
In this embodiment, for example, the operation
音声入力受付部60は、本実施形態では例えば、マイク12gを介して入力されるユーザの音声を受け付ける。そして、音声入力受付部60は、入力された音声を表す音声データをテレビ会議クライアント部68に出力する。
The voice
そして、本実施形態では例えば、クライアント装置12が入力オフ状態から入力オン状態に変化したことに応じて、入力送信部46は、通信開始要求を中継装置14に送信する。そして、クライアント装置12が入力オフ状態から入力オン状態に変化してから、中継装置14と端末10との間の通信が確立されるまでの間にマイク12gを介して入力される音声を表す音声データは、テレビ会議クライアント部68に出力されるだけでなく、音声バッファ44に蓄積される。
In this embodiment, for example, the
また、クライアント装置12が入力オン状態から入力オフ状態に変化したことに応じて、入力送信部46は、確定要求を中継装置14に送信する。
Also, in response to the
音声バッファ44、入力送信部46のその他の機能は、図8Aを参照して説明した上述の機能と同様であるため、説明を省略する。また、文字列受信部62、撮影画像取得部64、重畳画像生成部66、テレビ会議クライアント部68、音声出力制御部70、表示制御部72の機能は、図8Bを参照して説明した上述の機能と同様であるため、説明を省略する。なお、当該変形例においては、中継装置14は、端末10への文字列の送信を行わない。
Other functions of the
図12及び図13に示す例のように、入力中継部80が、発話者によりクライアント装置12に入力される音声を表す音声データをクライアント装置12から受け付けてもよい。また、入力中継部80が、クライアント装置12に対して発話者により行われる所定の操作に応じてクライアント装置12から送信される確定要求を受け付けてもよい。
As in the examples shown in FIGS. 12 and 13, the
そして、表示制御部72は、撮影部12eによって撮影される画像に確定要求の受付までに受け付けた音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面をクライアント装置12が備えるディスプレイ12fに表示させてもよい。
Then, the
また、本実施形態において、翻訳後言語として複数の言語が設定可能であってもよい。そして、文字列中継部84が、確定要求の受付までに受け付けた音声データが表す音声の、設定された複数の言語への翻訳が開始されるよう制御してもよい。この場合、例えば、文字列中継部84は、音声認識文字列を、複数の翻訳後言語にそれぞれ対応付けられる複数の翻訳部92に送信してもよい。
Also, in this embodiment, a plurality of languages may be set as post-translation languages. Then, the character
そして、表示制御部72は、撮影画像に、設定された複数の言語のそれぞれについての翻訳結果文字列を重畳させた画像が配置された画面をディスプレイ12fに表示させてもよい。
Then, the
例えば、撮影画像内における下段に、音声認識結果文字列を英語に翻訳した翻訳結果文字列が表示されるとともに、撮影画像内における上段に、当該音声認識結果文字列を中国語の翻訳結果文字列が表示されるようにしてもよい。 For example, in the lower part of the photographed image, the translated result character string obtained by translating the speech recognition result character string into English is displayed, and in the upper part of the photographed image, the speech recognition result character string is displayed as the Chinese translation result character string. may be displayed.
そして、すべての翻訳後言語についての翻訳結果文字列が表示されたことが確認されたことに応じて、これらの翻訳結果文字列が画面から消去されるようにしてもよい。 Then, when it is confirmed that the translation result character strings for all post-translation languages have been displayed, these translation result character strings may be erased from the screen.
なお、本発明は上述の実施形態に限定されるものではない。 It should be noted that the present invention is not limited to the above-described embodiments.
例えば、端末10、クライアント装置12、中継装置14、音声処理システム16、テレビ会議システム18の役割分担は、以上で説明したものには限定されない。例えば、音声認識結果文字列が中継装置14を経由することなく、当該音声認識結果文字列に対する翻訳処理が音声処理システム16において実行されてもよい。
For example, the division of roles among the terminal 10, the
例えば、クライアント装置12が、端末10から中継装置14に送信される音声データを中継装置14から受信してもよい。そして、クライアント装置12が、マイク12gを介して入力される音声を表す音声データではなく、中継装置14から受信する音声データを、テレビ会議システム18に出力してもよい。
For example, the
また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。 Moreover, the specific character strings and numerical values described above and the specific character strings and numerical values in the drawings are examples, and the present invention is not limited to these character strings and numerical values.
1 テレビ会議用翻訳システム、10 端末、10a プロセッサ、10b 記憶部、10c 通信部、10d 操作部、10da 翻訳ボタン、10db 電源ボタン、10dc 音量調整部、10e 撮影部、10f タッチパネル、10g マイク、10h スピーカ、12 クライアント装置、12a プロセッサ、12b 記憶部、12c 通信部、12d 操作部、12e 撮影部、12f ディスプレイ、12g マイク、12h スピーカ、14 中継装置、14a プロセッサ、14b 記憶部、14c 通信部、16 音声処理システム、16a プロセッサ、16b 記憶部、16c 通信部、18 テレビ会議システム、20 コンピュータネットワーク、30 テレビ会議画面、32 重畳画像、34 音声認識結果画像、36 翻訳結果画像、40 操作入力受付部、42 音声入力受付部、44 音声バッファ、46 入力送信部、48 文字列受信部、50 表示制御部、60 音声入力受付部、62 文字列受信部、64 撮影画像取得部、66 重畳画像生成部、68 テレビ会議クライアント部、70 音声出力制御部、72 表示制御部、80 入力中継部、82 音声バッファ、84 文字列中継部、90 音声認識部、92 翻訳部、94 翻訳ボタン。
1 translation system for video conference, 10 terminal, 10a processor, 10b storage unit, 10c communication unit, 10d operation unit, 10da translation button, 10db power button, 10dc volume control unit, 10e photographing unit, 10f touch panel, 10g microphone, 10h speaker , 12 client device, 12a processor, 12b storage unit, 12c communication unit, 12d operation unit, 12e photographing unit, 12f display, 12g microphone, 12h speaker, 14 relay device, 14a processor, 14b storage unit, 14c communication unit, 16
Claims (9)
前記発話者により行われる所定の操作に応じて出力される確定要求を受け付ける確定要求受付手段と、
前記確定要求の受付をトリガとして、当該確定要求の受付までに受け付けた前記音声データが表す音声の翻訳が開始されるよう制御する翻訳制御手段と、
撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を表示部に表示させる翻訳結果表示制御手段と、
を含むことを特徴とする表示制御システム。 voice data receiving means for receiving voice data representing voice input by a speaker;
Confirmation request receiving means for receiving a confirmation request output in response to a predetermined operation performed by the speaker;
translation control means for controlling, with the reception of the confirmation request as a trigger, to start translating the speech represented by the received audio data until the reception of the confirmation request;
Translation result display control for displaying on the display unit a screen in which a character string representing the translation result of the voice represented by the voice data received before the acceptance of the confirmation request is superimposed on the image captured by the capturing unit. means and
A display control system comprising:
前記音声認識結果表示制御手段は、前記確定要求の受付よりも前に、前記撮影部によって撮影される画像に受付済の前記音声データが表す音声の音声認識結果を表す文字列を重畳させた画像が配置された画面を前記表示部に表示させる、
ことを特徴とする請求項1に記載の表示制御システム。 voice recognition result display control means for causing the display unit to display an image obtained by superimposing a character string representing a voice recognition result of the voice represented by the voice data on the image captured by the imaging unit. ,
The voice recognition result display control means superimposes a character string representing the voice recognition result of the voice represented by the received voice data on the image captured by the imaging unit before accepting the confirmation request. to display a screen on which is arranged on the display unit;
The display control system according to claim 1, characterized by:
ことを特徴とする請求項1又は2に記載の表示制御システム。 The translation result display control means adds a character string representing a voice recognition result of the voice represented by the voice data received until the acceptance of the confirmation request to the image captured by the imaging unit, and causing the display unit to display a screen on which an image in which both character strings representing the translation result of the voice represented by the voice data received are superimposed is arranged;
3. The display control system according to claim 1, wherein:
前記翻訳結果表示制御手段は、前記テレビ会議システムによって生成される前記画面を前記表示部に表示させる、
ことを特徴とする請求項1から3のいずれか一項に記載の表示制御システム。 an image output unit that outputs an image obtained by superimposing a character string on the image captured by the capturing unit to a video conference system;
The translation result display control means causes the screen generated by the video conference system to be displayed on the display unit.
4. The display control system according to any one of claims 1 to 3, characterized by:
前記確定要求受付手段は、前記端末に対して前記発話者により行われる所定の操作に応じて前記端末から送信される前記確定要求を受け付け、
前記翻訳結果表示制御手段は、前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を前記端末が備える表示部に表示させ、
前記翻訳結果表示制御手段は、前記撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面をクライアント装置が備える表示部に表示させる、
ことを特徴とする請求項1から4のいずれか一項に記載の表示制御システム。 the voice data receiving means receives from the terminal the voice data representing voice input by the speaker to the terminal;
the confirmation request receiving means receives the confirmation request transmitted from the terminal in response to a predetermined operation performed by the speaker on the terminal;
The translation result display control means causes a display unit of the terminal to display a character string representing a translation result of the voice represented by the voice data received before the acceptance of the confirmation request,
The translation result display control means displays a screen in which an image obtained by superimposing a character string representing a translation result of the voice represented by the voice data received until the confirmation request is received on the image captured by the imaging unit is arranged. displayed on the display unit of the client device,
5. The display control system according to any one of claims 1 to 4, characterized in that:
前記確定要求受付手段は、前記クライアント装置に対して前記発話者により行われる所定の操作に応じて前記クライアント装置から送信される前記確定要求を受け付け、
前記翻訳結果表示制御手段は、前記撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を前記クライアント装置が備える前記表示部に表示させる、
ことを特徴とする請求項1から4のいずれか一項に記載の表示制御システム。 the voice data receiving means receives from the client device the voice data representing voice input by the speaker to the client device;
the confirmation request receiving means receives the confirmation request transmitted from the client device in response to a predetermined operation performed by the speaker on the client device;
The translation result display control means displays a screen in which an image obtained by superimposing a character string representing a translation result of the voice represented by the voice data received until the confirmation request is received on the image captured by the imaging unit is arranged. display on the display unit provided in the client device;
5. The display control system according to any one of claims 1 to 4, characterized in that:
前記翻訳結果表示制御手段は、前記撮影部によって撮影される画像に、前記複数の言語のそれぞれについての、前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を前記表示部に表示させる、
ことを特徴とする請求項1から6のいずれか一項に記載の表示制御システム。 The translation control means controls to start translating the voice represented by the voice data received by the time the confirmation request is received into a plurality of languages,
The translation result display control means provides a screen on which an image obtained by superimposing a character string representing a translation result of the voice represented by the voice data for each of the plurality of languages on the image captured by the capturing unit is arranged. is displayed on the display unit,
7. The display control system according to any one of claims 1 to 6, characterized by:
前記発話者により行われる所定の操作に応じて出力される確定要求を受け付けるステップと、
前記確定要求の受付をトリガとして、当該確定要求の受付までに受け付けた前記音声データが表す音声の翻訳が開始されるよう制御するステップと、
撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を表示部に表示させるステップと、
を含むことを特徴とする表示制御方法。 receiving speech data representing speech input by a speaker;
a step of receiving a confirmation request output in response to a predetermined operation performed by the speaker;
a step of controlling the reception of the confirmation request as a trigger to start translating the speech represented by the received audio data before the reception of the confirmation request;
a step of displaying on a display unit a screen in which an image captured by a capturing unit is superimposed with a character string representing a translation result of the voice represented by the voice data received before the acceptance of the confirmation request;
A display control method comprising:
前記発話者により行われる所定の操作に応じて出力される確定要求を受け付ける手順、
前記確定要求の受付をトリガとして、当該確定要求の受付までに受け付けた前記音声データが表す音声の翻訳が開始されるよう制御する手順、
撮影部によって撮影される画像に前記確定要求の受付までに受け付けた前記音声データが表す音声の翻訳結果を表す文字列を重畳させた画像が配置された画面を表示部に表示させる手順、
をコンピュータに実行させることを特徴とするプログラム。 a procedure for accepting speech data representing speech input by a speaker;
a procedure for receiving a confirmation request output in response to a predetermined operation performed by the speaker;
A procedure for controlling the reception of the confirmation request as a trigger so that the translation of the speech represented by the received audio data is started by the reception of the confirmation request;
A procedure for displaying on a display unit a screen in which an image captured by an imaging unit is superimposed with a character string representing a translation result of the voice represented by the voice data received until the confirmation request is received,
A program characterized by causing a computer to execute
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021199424A JP2023084986A (en) | 2021-12-08 | 2021-12-08 | Display control system, display control method, and program |
US18/053,364 US20230178081A1 (en) | 2021-12-08 | 2022-11-07 | Display control system, display control method and information storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021199424A JP2023084986A (en) | 2021-12-08 | 2021-12-08 | Display control system, display control method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023084986A true JP2023084986A (en) | 2023-06-20 |
Family
ID=86775572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021199424A Pending JP2023084986A (en) | 2021-12-08 | 2021-12-08 | Display control system, display control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023084986A (en) |
-
2021
- 2021-12-08 JP JP2021199424A patent/JP2023084986A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11114091B2 (en) | Method and system for processing audio communications over a network | |
US10276064B2 (en) | Method and system for adjusting user speech in a communication session | |
EP3792916A1 (en) | Data processing method based on simultaneous interpretation, computer device, and storage medium | |
US20110216153A1 (en) | Digital conferencing for mobile devices | |
CN106462573A (en) | In-call translation | |
CN110401810B (en) | Virtual picture processing method, device and system, electronic equipment and storage medium | |
US20090157223A1 (en) | Robot chatting system and method | |
CN110769189B (en) | Video conference switching method and device and readable storage medium | |
CN112783461A (en) | Screen projection method and device, electronic equipment and storage medium | |
CN112286610A (en) | Interactive processing method and device, electronic equipment and storage medium | |
CN111988555B (en) | Data processing method, device, equipment and machine readable medium | |
WO2022135005A1 (en) | Call-based screen sharing method, apparatus, device, and storage medium | |
CN111343477B (en) | Data transmission method and device, electronic equipment and storage medium | |
US20160294892A1 (en) | Storage Medium Storing Program, Server Apparatus, and Method of Controlling Server Apparatus | |
CN112866619B (en) | Teleconference control method and device, electronic equipment and storage medium | |
CN107959755B (en) | Photographing method, mobile terminal and computer readable storage medium | |
JP2018515979A (en) | Communication processing method and electronic apparatus | |
CN107247794B (en) | Topic guiding method in live broadcast, live broadcast device and terminal equipment | |
CN111835617B (en) | User head portrait adjusting method and device and electronic equipment | |
CN112533052A (en) | Video sharing method and device, electronic equipment and storage medium | |
CN114374880B (en) | Joint live broadcast method, joint live broadcast device, electronic equipment and computer readable storage medium | |
JP2023084986A (en) | Display control system, display control method, and program | |
JP2023032207A (en) | Display control system and control method of the same | |
US20230178081A1 (en) | Display control system, display control method and information storage medium | |
CN107786686B (en) | System and method for outputting multimedia data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20211215 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20220325 |