JP2023133782A - Speech recognition text display system, speech recognition text display device, speech recognition text display method and program - Google Patents
Speech recognition text display system, speech recognition text display device, speech recognition text display method and program Download PDFInfo
- Publication number
- JP2023133782A JP2023133782A JP2022038972A JP2022038972A JP2023133782A JP 2023133782 A JP2023133782 A JP 2023133782A JP 2022038972 A JP2022038972 A JP 2022038972A JP 2022038972 A JP2022038972 A JP 2022038972A JP 2023133782 A JP2023133782 A JP 2023133782A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- text information
- recognition
- text
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 240000000220 Panda oleosa Species 0.000 claims abstract description 26
- 235000016496 Panda oleosa Nutrition 0.000 claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims description 37
- 238000004458 analytical method Methods 0.000 description 37
- 238000004891 communication Methods 0.000 description 37
- 238000006243 chemical reaction Methods 0.000 description 29
- 238000004364 calculation method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 208000032041 Hearing impaired Diseases 0.000 description 5
- 229910000831 Steel Inorganic materials 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 239000010959 steel Substances 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、音声認識テキスト表示システム、音声認識テキスト表示装置、音声認識テキスト表示方法およびプログラムに関する。 The present invention relates to a voice recognition text display system, a voice recognition text display device, a voice recognition text display method, and a program.
従来、複数の参加者が会議をする際に、各参加者が発話した内容(音声信号)をテキストに変換して表示する装置が知られている(例えば特許文献1参照)。このような装置は、聴覚障がい者による会議への参加を支援するために用いられることがある。 2. Description of the Related Art Conventionally, there has been known a device that converts the content (audio signals) uttered by each participant into text and displays it when a plurality of participants hold a conference (for example, see Patent Document 1). Such devices are sometimes used to assist hearing-impaired people in attending conferences.
例えば特許文献1に記載の装置において、会議の参加者が発話した内容の中に同音異義語が存在する語が含まれる際に、当該語が、発話者が意図しない漢字に変換されて表示される場合がある。この場合、発話者が発話した内容を、他の参加者が理解しにくくなる可能性がある。このような問題は、特に、聴覚障がい者が会議に参加する場合に顕著となる。聴覚障がい者は、テキストを読むことによって会議の内容を理解するためである。
For example, in the device described in
本発明は、上記の問題点に鑑みてなされたものであって、音声信号から変換されたテキスト情報を参加者が理解しやすくすることができる音声認識テキスト表示システム、音声認識テキスト表示装置、音声認識テキスト表示方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and includes a voice recognition text display system, a voice recognition text display device, and a voice recognition text display system that can make it easier for participants to understand text information converted from voice signals. The purpose of this invention is to provide a recognized text display method and program.
(1)上記目的を達成するため、本発明の一態様に係る音声認識テキスト表示システム(1)は、音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムであって、前記音声信号を取得する取得部(222)と、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識部(音声認識部223、テキスト変換部224、係り受け解析部225、算出部226、変換切替部227)と、前記テキスト情報を表示する表示部(表示部203、表示部303、議事録作成部228、画像出力部241)と、を備え、前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える。
(1) In order to achieve the above object, a voice recognition text display system (1) according to one aspect of the present invention is a voice recognition text display system that converts a voice signal into text information and displays the voice signal. an acquisition unit (222) that acquires the audio signal, and a voice recognition unit (
(2)また、本発明の一態様に係る音声認識テキスト表示システムにおいて、前記音声認識部は、前記算出された複数の認識尤度の最大値が所定値より低い場合に、前記判断された語を漢字に変換せず仮名文字による前記テキスト情報で出力してもよい。 (2) Furthermore, in the speech recognition text display system according to one aspect of the present invention, the speech recognition unit may detect the determined word when the maximum value of the plurality of calculated recognition likelihoods is lower than a predetermined value. may be output as the text information in kana characters without converting it into kanji.
(3)また、本発明の一態様に係る音声認識テキスト表示システムにおいて、前記表示部は、前記テキスト情報を表示する際に、前記判断された語であり、かつ、前記音声認識部によって仮名文字による前記テキスト情報で出力された語を、他の語とは異なる書式で表示してもよい。 (3) Furthermore, in the voice recognition text display system according to one aspect of the present invention, when displaying the text information, the display unit displays the determined word and the kana character by the voice recognition unit. The words output as the text information may be displayed in a format different from other words.
(4)上記目的を達成するため、本発明の一態様に係る音声認識テキスト表示装置は、音声信号をテキスト情報に変換して表示する音声認識テキスト表示装置であって、前記音声信号を取得する取得部と、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識部と、前記テキスト情報を表示する表示部と、を備え、前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える。 (4) In order to achieve the above object, a voice recognition text display device according to one aspect of the present invention is a voice recognition text display device that converts a voice signal into text information and displays it, and acquires the voice signal. The voice recognition unit includes an acquisition unit, a voice recognition unit that performs voice recognition on the voice signal acquired by the acquisition unit and outputs the text information, and a display unit that displays the text information. The unit calculates the recognition likelihood for each of the plurality of homonyms with respect to the word for which it is determined in the speech recognition that there are a plurality of homonyms with a common pronunciation, and Depending on the magnitude of the likelihood, it is switched whether the determined word is output as the text information converted into kanji or as the text information in kana characters.
(5)上記目的を達成するため、本発明の一態様に係る音声認識テキスト表示方法は、音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムにおける音声認識テキスト表示方法であって、取得部が、音声信号を取得する取得ステップと、音声認識部が、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識ステップと、表示部が、前記テキスト情報を表示する表示ステップと、を備え、前記音声認識ステップにおいて、前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える。 (5) In order to achieve the above object, a voice recognition text display method according to one aspect of the present invention is a voice recognition text display method in a voice recognition text display system that converts a voice signal into text information and displays it, comprising: an acquisition step in which an acquisition unit acquires a voice signal; a voice recognition step in which a voice recognition unit performs voice recognition on the voice signal acquired by the acquisition unit and outputs the text information; and a display unit. and a displaying step of displaying the text information, and in the speech recognition step, the speech recognition unit is configured to display information about a word for which it is determined in the speech recognition that there are a plurality of homophones having a common pronunciation. , calculate the recognition likelihood for each of the plurality of homophone opposition words, and output the determined word as the text information converted into kanji according to the magnitude of the plurality of calculated recognition likelihoods. or outputting the text information in kana characters.
(6)上記目的を達成するため、本発明の一態様に係るプログラムは、音声信号をテキスト情報に変換して表示する音声認識テキスト表示システムに、音声信号を取得する取得ステップと、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識ステップと、前記テキスト情報を表示する表示ステップと、を実行させ、前記音声認識ステップにおいては、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える。 (6) In order to achieve the above object, a program according to one aspect of the present invention includes an acquisition step of acquiring an audio signal, and an acquisition section for acquiring an audio signal in a speech recognition text display system that converts an audio signal into text information and displays the result. A voice recognition step of performing voice recognition on the voice signal acquired in the step and outputting the text information, and a display step of displaying the text information, and in the voice recognition step, the voice For a word that is determined to have a plurality of homonyms with a common pronunciation in recognition, the recognition likelihood for each of the plurality of homonyms is calculated, and the magnitude of the plurality of calculated recognition likelihoods is calculated. The determined word is output as the text information converted into kanji or as the text information in kana characters.
上述した(1)、(4)または(5)あるいは(6)によれば、音声信号から変換されたテキスト情報を参加者が理解しやすくなるという効果を奏する。 According to the above-mentioned (1), (4), (5), or (6), there is an effect that the participants can easily understand the text information converted from the audio signal.
上述した(2)によれば、発話者が意図しない漢字に変換されたテキスト情報が表示される可能性を低減できる。
上述した(3)によれば、同音異義語の認識尤度が低かったために仮名文字によるテキスト情報で表示された語を、参加者が判別することができる。
According to (2) above, it is possible to reduce the possibility that text information converted into kanji characters not intended by the speaker will be displayed.
According to (3) above, the participant can identify words that were displayed as text information in kana characters because the recognition likelihood of homophones was low.
以下、本発明の実施の形態について図面を参照しながら説明する。 Embodiments of the present invention will be described below with reference to the drawings.
まず、本実施形態の音声認識テキスト表示装置(音声認識テキスト表示システム)が使用される状況例を説明する。
本実施形態の音声認識テキスト表示装置(音声認識テキスト表示システム)は、2人以上が参加して行われる会議で用いられる。参加者のうち、発話が不自由な人が会議に参加していてもよい。発話可能な参加者は、参加者毎にマイクロフォンを装着するか、マイクロフォンを備える端末(スマートフォン、タブレット端末、パーソナルコンピュータ等)を用いる。聴覚障がいの参加者は、テキストを入力可能な端末を用いる。音声認識テキスト表示装置は、参加者の発話した音声信号に対して音声認識、テキスト化して、各自の端末にテキスト表示させる。また、音声認識テキスト表示装置は、聴覚障がい者が入力したテキスト情報を各自の端末にテキスト表示させる。
First, an example of a situation in which the voice recognition text display device (voice recognition text display system) of this embodiment is used will be described.
The voice recognition text display device (voice recognition text display system) of this embodiment is used in a conference attended by two or more people. Among the participants, a person with a speech disability may be participating in the conference. Participants who can speak should each wear a microphone or use a terminal (smartphone, tablet terminal, personal computer, etc.) equipped with a microphone. Hearing-impaired participants will use a terminal that can input text. The voice recognition text display device recognizes voice signals uttered by participants, converts them into text, and displays the text on their respective terminals. Furthermore, the voice recognition text display device displays text information input by hearing-impaired people on their own terminals.
図1は、本実施形態に係る音声認識テキスト表示装置(音声認識テキスト表示システム)1の構成例を示すブロック図である。
図1に示すように、音声認識テキスト表示装置(音声認識テキスト表示システム)1は、親機2と、子機3a、子機3b、・・・を含んで構成される。なお、子機3a、子機3b、・・・のうち1つを特定しない場合は、単に子機3という。
親機2と子機3とは、有線または無線のネットワーク4を介して接続されている。
FIG. 1 is a block diagram showing a configuration example of a speech recognition text display device (speech recognition text display system) 1 according to the present embodiment.
As shown in FIG. 1, a voice recognition text display device (voice recognition text display system) 1 includes a
The
親機2は、収音部201、操作部202、表示部203、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、議事録作成部228、議事録記憶部229、テキスト取得部231、および画像出力部241を備える。係り受け解析部225は、算出部226および変換切替部227を備える。ただし、算出部226または変換切替部227は、係り受け解析部225とは別に設けられていてもよい。
The
子機3は、収音部301、操作部302、表示部303、通信部304、および処理部305を備える。収音部301、操作部302、表示部303、通信部304、および処理部305は、バス306を介して接続されている。
The
<子機3>
まず、子機3について説明する。
子機3は、例えばスマートフォン、タブレット端末、パーソナルコンピュータ等である。なお、子機3は、音声出力部、モーションセンサー、GPS(Global Positioning System;全地球測位システム)等を備えていてもよい。
<
First, the
The
収音部301は、マイクロフォンである。収音部301は、利用者の音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を処理部305に出力する。
The
操作部302は、利用者の操作を検出し、検出した結果を処理部305に出力する。操作部302は、例えば表示部303上に設けられたタッチパネル式のセンサー、または優先接続または無線接続のキーボード等である。
The
処理部305は、操作部302が操作された操作結果に基づいて設定情報を生成し、生成した設定情報を通信部304に出力する。ここで、設定情報には、参加者の識別情報が含まれている。設定情報には、収音部の使用の有無を示す情報、操作部の使用の有無を示す情報が含まれていてもよい。処理部305は、操作部302が操作された操作結果に基づいてログイン指示を生成し、生成したログイン指示を通信部304に出力する。ここで、ログイン指示には、参加者の識別情報、子機3の識別情報が含まれている。処理部305は、操作部302が操作された操作結果に基づくテキスト情報に識別情報を付加して通信部304に出力する。処理部305は、収音部301が出力する音声信号に識別情報を付加して通信部304に出力する。処理部305は、通信部304が出力する画像データを取得し、取得した画像データを表示部303に出力する。処理部305は、通信部304が出力するログインを許可する情報に基づいて、親機2との通信を確立する。処理部305は、親機2から発言制限指示(入力制限指示)を受信した場合、テキスト入力に対して制限を行ってもよい。また、処理部305は、親機2から発言制限指示を受信した場合、音声入力に対しても制限を行うようにしてもよい。
The
表示部303は、処理部305が出力した画像データを表示する。表示部303は、例えば液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置、電子インク表示装置等である。なお、表示部303上に表示される画像については後述する。
The
通信部304は、処理部305が出力する設定情報を、ネットワーク4を介して親機2へ送信する。通信部304は、処理部305が出力するログイン指示を、ネットワーク4を介して親機2へ送信する。通信部304は、処理部305が出力するテキスト情報または音声信号を、ネットワーク4を介して親機2へ送信する。なお、送信するテキスト情報または音声信号には、利用者の識別情報と子機3の識別情報が含まれている。通信部304は、親機2が送信した画像データを受信し、受信した画像データを処理部305に出力する。通信部304は、親機2が送信したログインを許可する情報を受信した場合、受信したログインを許可する情報を処理部305に出力する。
The
<親機2>
次に親機2について説明する。
親機2は、例えばノートパソコン等である。
<
Next, the
The
収音部201は、マイクロフォンである。収音部201は、利用者の音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を取得部222に出力する。
The
操作部202は、利用者の操作を検出し、検出した結果をテキスト取得部231に出力する。操作部202は、例えば表示部203上に設けられたタッチパネル式のセンサー、またはキーボードである。操作部202は、ログイン処理の際、操作を検出した結果を、認証部211に出力する。
The
表示部203は、例えば液晶表示装置、有機EL表示装置、電子インク表示装置等である。表示部203は、画像出力部241が出力する画像データを表示する。なお、表示部203上に表示される画像については後述する。
The display unit 203 is, for example, a liquid crystal display device, an organic EL display device, an electronic ink display device, or the like. The display unit 203 displays image data output by the
通信部204は、子機3が送信した音声信号を受信し、受信した音声信号を取得部222に出力する。通信部204は、子機3が送信したテキスト情報を受信し、受信したテキスト情報をテキスト取得部231に出力する。通信部204は、子機3が送信したログイン指示を受信し、受信したログイン指示を認証部211に出力する。通信部204は、画像出力部241が出力する画像データを、ネットワーク4を介して子機3へ送信する。通信部204は、認証部211が出力するログインを許可する情報を、ネットワーク4を介して子機3へ送信する。
The
認証部211は、通信部204が出力するログイン指示に含まれる参加者の識別情報と子機3の識別情報に基づいて、ログインを許可するか否かを判定する。認証部211は、ログインを許可する場合、ログインを許可する情報を通信部204に出力する。認証部211は、操作部202が操作された結果に基づいて、親機2の利用者のログインを許可するか否かを判定する。認証部211は、ログインを許可する場合、各機能部にログインを許可する情報を出力し、各機能部の動作を許可する。なお、各機能部とは、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、算出部226、変換切替部227、議事録作成部228、議事録記憶部229、テキスト取得部231、および画像出力部241である。
The
音響モデル・辞書記憶部221は、例えば音響モデル、言語モデル、単語辞書等を格納している。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、親機2は、音響モデル・辞書記憶部221に格納されていない単語等を格納して更新するようにしてもよい。なお、音響モデル・辞書記憶部221は、例えば会議ごとにDB(データベース)を備えていてもよい。例えば、第1のDBが一般の会議用であり、第2のDBが発表会用であり、第3のDBが国際会議用であってもよい。このように会議に合わせたDBを用いることで、同音異義語等の変換を適切に行いやすくなる。
The acoustic model/
取得部222は、収音部201が出力する音声信号、または通信部204が出力する音声信号を取得し、取得した音声信号を音声認識部223に出力する。
The
音声認識部223は、取得部222が出力する音声信号を取得する。音声認識部223は、音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部223は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部223は、検出した発話区間の音声信号に対して、音響モデル・辞書記憶部221を参照して、周知の手法を用いて音声認識を行う。なお、音声認識部223は、例えば特開2015-64554号公報に開示されている手法等を用いて音声認識を行う。音声認識部223は、認識した認識結果と音声信号をテキスト変換部224に出力する。なお、音声認識部223は、認識結果と音声信号とを、例えば1文毎、または発話区間毎、または発話毎に対応つけて出力する。
なお、音声認識部223は、音声信号が同時に入力された場合、例えば時分割処理によって収音部(201または301)毎に音声認識を行う。また、音声認識部223は、マイクロフォンがマイクロフォンアレイの場合、音源分離処理、音源定位処理、音源同定処理等、周知の音声認識処理も行う。
The
Note that when audio signals are input simultaneously, the
テキスト変換部224は、音声認識部223が出力する認識結果に対して、音響モデル・辞書記憶部221を参照して、テキストに変換する。なお、テキスト情報は、少なくとも1文字の情報を含む。テキスト変換部224は、変換したテキスト情報と、取得した音声信号を係り受け解析部225に出力する。なお、テキスト変換部224は、発話情報を認識した結果から「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除してテキストに変換するようにしてもよい。
The
係り受け解析部225は、テキスト変換部224が出力したテキスト情報または通信部204が出力したテキスト情報に対して、音響モデル・辞書記憶部221を参照して、形態素解析と係り受け解析を行う。なお、係り受け解析には、例えば、Shift-reduce法や全域木の手法やチャンク同定の段階適用手法においてSVM(Support Vector Machines)を用いる。
係り受け解析部225は、形態素解析と係り受け解析を行ったテキスト情報と、解析した結果を議事録作成部228に出力する。なお、係り受け解析部225は、テキスト変換部224が出力する音声信号を取得した場合、取得した音声信号も議事録作成部228に出力する。
ここで、係り受け解析部225は、上記した情報に加えて(または代えて)、以下で説明する算出部226および変換切替部227による処理を行ったテキスト情報を議事録作成部228に出力する。
The
The
Here, in addition to (or instead of) the above-mentioned information, the
算出部226は、音声認識(形態素解析と係り受け解析)において発音が共通する複数の同音異義語の存在があると判断された語について、複数の同音異義語の各々に対する認識尤度を算出する。例えば、「こうせい」という単語には、「構成」「鋼製」「厚生」「公正」・・・といった発音が共通する複数の同音異義語が存在する。算出部226は、音響モデル・辞書記憶部221、またはテキスト情報における「こうせい」の前後の文脈その他の情報を参照して、「構成」「鋼製」「厚生」「公正」・・・の各々について、認識尤度を算出する。算出部226は、当該算出によって得られた複数の認識尤度を、変換切替部227に出力する。
The
変換切替部227は、算出部226によって出力された複数の認識尤度の大きさに応じて、発音が共通する複数の同音異義語の存在があると判断された語を、係り受け解析部225が、漢字に変換したテキスト情報で出力するか、仮名文字によるテキスト情報で出力するか、を切り替える。なお、「仮名文字」には、平仮名および片仮名が含まれる。
例えば、変換切替部227は、算出部226によって出力された「構成」「鋼製」「厚生」「公正」・・・の各々の認識尤度に応じて、「こうせい」という語を、「こうせい」または「コウセイ」で出力するか、「構成」または「鋼製」等で出力するか、を切り替える。
一例として、変換切替部227は、算出部226によって出力された複数の認識尤度の最大値が所定値より低い場合に、発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)を係り受け解析部225に漢字変換させず、仮名文字によるテキスト情報で出力させてもよい。
The
For example, the
As an example, when the maximum value of the plurality of recognition likelihoods outputted by the
議事録作成部228は、係り受け解析部225またはテキスト取得部231が出力したテキスト情報に基づいて、発話者毎に分けて、議事録を作成する。議事録作成部228は、作成した議事録と対応する音声信号を議事録記憶部229に記憶させる。また、議事録作成部228は、作成した議事録を画像出力部241に出力する。なお、議事録作成部228は、「あー」、「えーと」、「えー」、「まあ」等の間投詞を削除して議事録を作成するようにしてもよい。
The
議事録記憶部229は、議事録と音声信号を対応つけて記憶する。
The
テキスト取得部231は、操作部202が出力する操作結果、または通信部204が出力する操作部302の操作結果を取得し、取得した結果に基づいてテキスト情報を生成する。テキスト取得部231は、生成したテキスト情報を議事録作成部228に出力する。
The
画像出力部241は、議事録作成部228が出力する議事録情報を取得する。画像出力部241は、議事録情報に基づいて画像データを生成し、生成した画像データを表示部203と通信部204に出力する。
The
<親機2の表示画像>
次に、親機2の表示部203上に表示される画像例を説明する。
図2は、本実施形態に係る親機2の表示部203上に表示される画像例を示す図である。
画像g10が、親機2の表示部203上に表示される画像である。
<Display image of
Next, an example of an image displayed on the display unit 203 of the
FIG. 2 is a diagram showing an example of an image displayed on the display unit 203 of the
Image g10 is an image displayed on display unit 203 of
領域g100は、参加者情報編集を行う領域である。
領域g101は、参加者情報の領域である。符号g102は、参加者の名前である。符号g103は、参加者が親機2の操作部202または子機3の操作部302によってテキスト入力を行うことを示すアイコンである。符号g104は、参加者が親機2の収音部201または子機3の収音部301によって発話を行うことを示すアイコンである。符号g105は、参加者が使用するマイクロフォンの番号(または識別情報)である。
Area g100 is an area where participant information is edited.
Area g101 is an area for participant information. The code g102 is the name of the participant. Reference numeral g103 is an icon indicating that the participant inputs text using the
領域g200は、議事録を表示する領域である。なお、図2では、ログイン後の状態を示している。符号g201は、ログイン/ログアウトのボタン画像である。符号g202は、音声認識テキスト表示装置(音声認識テキスト表示システム)1の開始/終了のボタン画像である。符号g203は、音声認識テキスト表示装置(音声認識テキスト表示システム)1の使用中に点灯する表示である。符号g204は、議事録記憶部229が記憶する議事録の表示や音声信号の再生を行うボタン画像である。符号g205は、親機2の利用者が収音部201の使用有無を選択するボタン画像である。
Area g200 is an area for displaying minutes. Note that FIG. 2 shows the state after login. Symbol g201 is a login/logout button image. Reference numeral g202 is a start/end button image of the voice recognition text display device (voice recognition text display system) 1. Reference numeral g203 is a display that lights up while the voice recognition text display device (voice recognition text display system) 1 is in use. Reference numeral g204 is a button image for displaying the minutes stored in the
符号g211は、第1の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g212は、第1の参加者が操作部(202または302)を操作して入力した絵文字である。符号g213は、第1の参加者がテキスト情報および絵文字を入力した日時を示す情報である。符号g214は、第1の参加者の名前である。 The code g211 is text information input by the first participant by operating the operation unit (202 or 302). The symbol g212 is a pictogram input by the first participant by operating the operation unit (202 or 302). The code g213 is information indicating the date and time when the first participant inputted the text information and pictograms. Code g214 is the name of the first participant.
符号g221は、第2の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g222は、第2の参加者が発話した内容を音声認識したテキスト情報である。符号g223は、操作部(202または302)を操作してテキストを入力したことを示すアイコンである。符号g224は、収音部(201または301)によって発話を入力したことを示すアイコンである。符号g231は、第3の参加者が発話した内容を音声認識したテキスト情報である。 The code g221 is text information input by the second participant by operating the operation unit (202 or 302). The code g222 is text information obtained by voice recognition of the content uttered by the second participant. The symbol g223 is an icon indicating that text has been input by operating the operation unit (202 or 302). The symbol g224 is an icon indicating that speech has been input by the sound collection unit (201 or 301). The code g231 is text information obtained by voice recognition of the content uttered by the third participant.
符号g241は、第2の参加者が発話した語「こうせい」について、各同音異義語「構成」「鋼製」等の認識尤度に応じて、仮名文字によるテキスト情報で表示する一例である。
図示の例に示すように、表示部203は、音声認識において発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)であり、かつ、係り受け解析部225によって仮名文字によるテキスト情報で出力された語を、他の語とは異なる書式で表示させてもよい。書式を異ならせる態様としては、例えば、斜体(イタリック)、太字、下線、マーカー表示、文字色、文字サイズ、またはフォントその他の態様、ならびにこれらの組み合わせ等を用いることができる。図示の例においては、「こうせい」を太字かつ斜体とすることにより、「こうせい」を他のテキスト情報とは異なる書式で表示している。
Symbol g241 is an example of displaying text information in kana characters for the word "Kosei" uttered by the second participant, according to the recognition likelihood of each homophone "structure", "made of steel", etc.
As shown in the illustrated example, the display unit 203 indicates a word that has been determined to have multiple homophones with the same pronunciation in speech recognition (“Kosei”), and which has been determined by the
なお、表示部203が上記の表示をするために、画像出力部241が、当該語を他の語とは異なる書式で表示させた画像データを生成する。
Note that in order for the display unit 203 to display the above, the
なお、図2に示した画像は一例であり、表示部203上に表示される画像はこれに限らない。例えば、表示部203は、音声認識において発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)であり、かつ、係り受け解析部225によって仮名文字によるテキスト情報で出力された語を、他の語とは異なる書式で表示しなくてもよい。
Note that the image shown in FIG. 2 is an example, and the image displayed on the display unit 203 is not limited to this. For example, the display unit 203 displays a word that has been determined to have multiple homophones with the same pronunciation in speech recognition (“Kousei”), and is displayed as text information in kana characters by the
<子機3の表示画面>
次に、子機3の表示部303上に表示される画像例を説明する。
図3は、本実施形態に係る子機3の表示部303上に表示される画像例を示す図である。
画像g30が、子機3の表示部303上に表示される画像である。
<Display screen of
Next, an example of an image displayed on the
FIG. 3 is a diagram showing an example of an image displayed on the
Image g30 is an image displayed on
領域g300は、議事録を表示する領域である。符号g311は、第1の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g321は、第2の参加者が操作部(202または302)を操作して入力したテキスト情報である。符号g322は、第2の参加者が発話した内容を音声認識したテキスト情報である。符号g331は、第3の参加者が発話した内容を音声認識したテキスト情報である。領域g301は、テキスト入力部の領域である。なお、操作部302は、表示部303上に表示されるソフトウェアキーボードであってもよく、子機3と有線または無線で接続されていてもよい。
Area g300 is an area for displaying minutes. The code g311 is text information input by the first participant by operating the operation unit (202 or 302). The code g321 is text information input by the second participant by operating the operation unit (202 or 302). The code g322 is text information obtained by voice recognition of the content uttered by the second participant. The code g331 is text information obtained by voice recognition of the content uttered by the third participant. Area g301 is an area for a text input section. Note that the
符号g341は、図2おける符号g241と同様に、第2の参加者が発話した語「こうせい」を仮名文字によるテキスト情報で表示する一例である。図示の例に示すように、表示部303は、表示部203と同様に、音声認識において発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)であり、かつ、係り受け解析部225によって仮名文字によるテキスト情報で出力された語を、他の語とは異なる書式で表示させてもよい。なお、表示部303が上記の表示をするために、画像出力部241が、当該語を他の語とは異なる書式で表示させた画像データを生成する。
Similar to the symbol g241 in FIG. 2, the symbol g341 is an example of displaying the word "Kousei" uttered by the second participant as text information in kana characters. As shown in the illustrated example, the
なお、図3に示した画像は一例であり、表示部303上に表示される画像はこれに限らない。例えば、表示部303は、音声認識において発音が共通する複数の同音異義語の存在があると判断された語(「こうせい」)であり、かつ、係り受け解析部225によって仮名文字によるテキスト情報で出力された語を、他の語とは異なる書式で表示しなくてもよい。
Note that the image shown in FIG. 3 is an example, and the image displayed on the
<音声認識テキスト表示装置(音声認識テキスト表示システム)1が行う処理>
次に、音声認識テキスト表示装置(音声認識テキスト表示システム)1が行う処理手順例を説明する。図4は、本実施形態に係る音声認識テキスト表示装置(音声認識テキスト表示システム)1が行う処理手順例を示すフローチャートである。
<Processing performed by voice recognition text display device (voice recognition text display system) 1>
Next, an example of a processing procedure performed by the voice recognition text display device (voice recognition text display system) 1 will be described. FIG. 4 is a flowchart illustrating an example of a processing procedure performed by the voice recognition text display device (voice recognition text display system) 1 according to the present embodiment.
(ステップS1)認証部211は、操作部(202または302)の操作内容に基づいて、ログイン処理を行う。例えば、各利用者が、操作部(202または302)を操作して、利用者を識別する識別情報(利用者ID)とパスワードを入力すると、認証部211は、入力された識別情報及びパスワードに基づいてログイン処理を行う。
(Step S1) The
(ステップS2)利用者が入力を収音部(201または301)によって行う場合、取得部222は、収音部201または通信部204が出力する音声信号を取得し、取得した音声信号を音声認識部223に出力する。
(Step S2) When the user performs input using the sound collection unit (201 or 301), the
(ステップS3)音声認識部223は、取得部222が出力する音声信号を取得し、取得した音声信号に対して音声認識処理を行う。
(Step S3) The
(ステップS4)テキスト変換部224は、音声認識された結果に対してテキスト変換処理を行う。
(Step S4) The
(ステップS5)係り受け解析部225は、テキスト変換されたテキスト情報に対して、発話者毎に係り受け解析と形態素解析処理を行う。
(Step S5) The
(ステップS6)係り受け解析部225は、音響モデル・辞書記憶部221を参照して、解析されたテキスト情報に含まれる各語について、発音が共通する複数の同音異義語の存在があるか否か判定する。係り受け解析部225が、複数の同音異義語の存在があると判定した場合(ステップS6;YES)には、ステップS7の処理が行われ、複数の同音異義語の存在はないと判定した場合(ステップS6;NO)には、ステップS11の処理が行われる。
(Step S6) The
(ステップS7)算出部226は、発音が共通する複数の同音異義語の存在があると判定された語について、各同音異義語に対する認識尤度を算出し、算出結果を変換切替部227に出力する。
(Step S7) The
(ステップS8)変換切替部227は、複数の認識尤度の算出値の最大値が所定値以下であるかを判定する。変換切替部227が、最大値が所定値以下であると判定した場合(ステップS8;YES)には、ステップS9の処理が行われ、最大値が所定値を超えると判定した場合(ステップS8;NO)には、ステップS10の処理が行われる。
(Step S8) The
(ステップS9)係り受け解析部225は、発音が共通する複数の同音異義語の存在があると判定された語を、仮名文字によるテキスト情報として議事録作成部228に出力する。
(Step S9) The
(ステップS10)係り受け解析部225は、発音が共通する複数の同音異義語の存在があると判定された語を、認識尤度が最も大きい同音異義語(漢字)に変換したテキスト情報として議事録作成部228に出力する。
(Step S10) The
(ステップS11)係り受け解析部225は、発音が共通する複数の同音異義語の存在はないと判定された語を、漢字によるテキスト情報として議事録作成部228に出力する。なお、漢字に変換することのできない語については、仮名文字によるテキスト情報として議事録作成部228に出力する。
(Step S11) The
(ステップS12)利用者が入力を操作部(202または302)によって行う場合、テキスト取得部231は、操作部202または通信部204が出力する操作結果を取得し、取得した結果に基づきテキスト情報を生成し、議事録作成部228に出力する。
(Step S12) When the user performs an input using the operation unit (202 or 302), the
(ステップS13)議事録作成部228は、係り受け解析部225またはテキスト取得部231が出力するテキスト情報に基づいて議事録を作成し、画像出力部241に出力する。
(Step S13) The
(ステップS14)画像出力部241は、議事録作成部228が出力する議事録に基づいて、表示部(203または303)上に表示する画像を生成し、表示部203または通信部204に出力する。
(Step S14) The
(ステップS15)表示部(203または303)は、画像出力部241が出力する画像を表示する。
(Step S15) The display unit (203 or 303) displays the image output by the
音声認識テキスト表示装置(音声認識テキスト表示システム)1は、以下、ステップS2~S15の処理を繰り返す。
なお、図4の処理は一例であり、これに限らない。
The voice recognition text display device (voice recognition text display system) 1 repeats the processes of steps S2 to S15.
Note that the process in FIG. 4 is an example, and the process is not limited to this.
以上、本実施形態では、発音が共通する複数の同音異義語の存在がある語を、各同音異義語の認識尤度に応じて、あえて仮名文字で表示するようにした。
これにより、本実施形態によれば、発話者が意図しない漢字に変換されたテキスト情報が表示される可能性を低減できる。これにより、本実施形態によれば、音声信号から変換されたテキスト情報を参加者が理解しやすくすることができる。
As described above, in this embodiment, a word that has a plurality of homophones with a common pronunciation is intentionally displayed in kana characters according to the recognition likelihood of each homophone.
As a result, according to the present embodiment, it is possible to reduce the possibility that text information converted into kanji that is not intended by the speaker will be displayed. Thereby, according to this embodiment, it is possible to make it easier for participants to understand text information converted from an audio signal.
なお、上述した例では、音声認識テキスト表示装置(音声認識テキスト表示システム)1は操作部(202または302)によるテキスト入力および収音部(201または301)による音声認識を用いたテキスト入力の双方を許容していたが、これに限らない。例えば、音声認識テキスト表示装置(音声認識テキスト表示システム)1は収音部(201または301)による音声認識を用いたテキスト入力のみを許容していてもよい。 In the above example, the voice recognition text display device (voice recognition text display system) 1 can input text using the operation unit (202 or 302) and input text using voice recognition using the sound collection unit (201 or 301). However, this is not limited to. For example, the voice recognition text display device (voice recognition text display system) 1 may only allow text input using voice recognition by the sound collection unit (201 or 301).
また、上述した例では、音声認識テキスト表示装置1が親機2および複数の子機3を備える例を説明したが、これに限らない。例えば、音声認識テキスト表示装置1が備える子機3は1つのみでもよく、あるいは、音声認識テキスト表示装置1は子機3を備えていなくてもよい。
Further, in the example described above, the voice recognition
また、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、算出部226、変換切替部227、議事録作成部228、議事録記憶部229、テキスト取得部231、および画像出力部241の各々は、子機3が備えていてもよい。同様に、処理部305は、親機2が備えていてもよい。
Additionally, the
また、音声認識テキスト表示装置1の各機能部は親機2および子機3以外の装置に備えられていてもよい。あるいは、音声認識テキスト表示システム1の各機能部は親機2または子機3その他の物理的装置に備えられていなくてもよく、一つまたは複数のサーバやクラウド上に設けられていてもよい。なお、各機能部とは、通信部204、認証部211、音響モデル・辞書記憶部221、取得部222、音声認識部223、テキスト変換部224、係り受け解析部225、算出部226、変換切替部227、議事録作成部228、議事録記憶部229、テキスト取得部231、画像出力部241、通信部304、および処理部305である。
Further, each functional unit of the voice recognition
なお、本発明における音声認識テキスト表示装置(音声認識テキスト表示システム)1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識テキスト表示装置(音声認識テキスト表示システム)1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 Note that a program for realizing all or part of the functions of the speech recognition text display device (speech recognition text display system) 1 of the present invention is recorded on a computer-readable recording medium, and the program is recorded on this recording medium. All or part of the processing performed by the speech recognition text display device (speech recognition text display system) 1 may be performed by loading a program into a computer system and executing it. Note that the "computer system" herein includes hardware such as an OS and peripheral devices. Furthermore, the term "computer system" includes a WWW system equipped with a home page providing environment (or display environment). Furthermore, the term "computer-readable recording medium" refers to portable media such as flexible disks, magneto-optical disks, ROMs, and CD-ROMs, and storage devices such as hard disks built into computer systems. Furthermore, "computer-readable recording medium" refers to volatile memory (RAM) inside a computer system that serves as a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. This also includes programs that are retained for a certain period of time.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 Further, the program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in a transmission medium. Here, the "transmission medium" that transmits the program refers to a medium that has a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Moreover, the above-mentioned program may be for realizing a part of the above-mentioned functions. Furthermore, it may be a so-called difference file (difference program) that can realize the above-described functions in combination with a program already recorded in the computer system.
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。 Although the mode for implementing the present invention has been described above using embodiments, the present invention is not limited to these embodiments in any way, and various modifications and substitutions can be made without departing from the gist of the present invention. can be added.
1…音声認識テキスト表示装置(音声認識テキスト表示システム) 203…表示部 222…取得部 224…テキスト変換部 225…係り受け解析部 226…算出部 227…変換切替部 241…画像出力部 303…表示部
1... Speech recognition text display device (speech recognition text display system) 203...
Claims (6)
前記音声信号を取得する取得部と、
前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識部と、
前記テキスト情報を表示する表示部と、を備え、
前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える、
音声認識テキスト表示システム。 A voice recognition text display system that converts voice signals into text information and displays it,
an acquisition unit that acquires the audio signal;
a voice recognition unit that performs voice recognition on the voice signal acquired by the acquisition unit and outputs the text information;
a display unit that displays the text information,
The speech recognition unit calculates a recognition likelihood for each of the plurality of homophones with respect to a word for which it is determined in the speech recognition that there are a plurality of homophones with a common pronunciation, and switching whether to output the determined word as the text information converted into kanji or as the text information in kana characters, depending on the magnitude of the plurality of recognition likelihoods;
Speech recognition text display system.
請求項1に記載の音声認識テキスト表示システム。 The speech recognition unit outputs the text information in kana characters without converting the determined word into kanji when the maximum value of the plurality of calculated recognition likelihoods is lower than a predetermined value.
The speech recognition text display system according to claim 1.
請求項1または2に記載の音声認識テキスト表示システム。 When displaying the text information, the display unit displays the determined word and the word output in the text information in kana characters by the speech recognition unit in a format different from other words. indicate,
The voice recognition text display system according to claim 1 or 2.
前記音声信号を取得する取得部と、
前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識部と、
前記テキスト情報を表示する表示部と、を備え、
前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える、
音声認識テキスト表示装置。 A voice recognition text display device that converts voice signals into text information and displays it,
an acquisition unit that acquires the audio signal;
a voice recognition unit that performs voice recognition on the voice signal acquired by the acquisition unit and outputs the text information;
a display unit that displays the text information,
The speech recognition unit calculates a recognition likelihood for each of the plurality of homophones with respect to a word for which it is determined in the speech recognition that there are a plurality of homophones with a common pronunciation, and switching whether to output the determined word as the text information converted into kanji or as the text information in kana characters, depending on the magnitude of the plurality of recognition likelihoods;
Voice recognition text display device.
取得部が、音声信号を取得する取得ステップと、
音声認識部が、前記取得部にて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識ステップと、
表示部が、前記テキスト情報を表示する表示ステップと、を備え、
前記音声認識ステップにおいて、前記音声認識部は、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える、
音声認識テキスト表示方法。 A voice recognition text display method in a voice recognition text display system that converts a voice signal into text information and displays it,
an acquisition step in which the acquisition unit acquires the audio signal;
a voice recognition step in which a voice recognition unit performs voice recognition on the voice signal acquired by the acquisition unit and outputs the text information;
a display step for displaying the text information;
In the speech recognition step, the speech recognition unit calculates a recognition likelihood for each of the plurality of homophone dissimilar words for the word for which it is determined in the speech recognition that there are a plurality of homophones with a common pronunciation. and switching, depending on the magnitude of the plurality of calculated recognition likelihoods, whether to output the determined word as the text information converted into kanji or as the text information in kana characters.
Speech recognition text display method.
音声信号を取得する取得ステップと、
前記取得ステップにて取得された前記音声信号に対して音声認識を行い、前記テキスト情報を出力する音声認識ステップと、
前記テキスト情報を表示する表示ステップと、を実行させ、
前記音声認識ステップにおいては、前記音声認識において発音が共通する複数の同音異義語の存在があると判断された語について、前記複数の同音異議語の各々に対する認識尤度を算出し、前記算出された複数の認識尤度の大きさに応じて、前記判断された語を、漢字に変換した前記テキスト情報で出力するか、仮名文字による前記テキスト情報で出力するかを切り替える、
プログラム。 A voice recognition text display system that converts voice signals into text information and displays it.
an acquisition step of acquiring an audio signal;
a voice recognition step of performing voice recognition on the voice signal acquired in the acquisition step and outputting the text information;
performing a display step of displaying the text information;
In the speech recognition step, for words for which it is determined in the speech recognition that there are a plurality of homophones with a common pronunciation, a recognition likelihood is calculated for each of the plurality of homophones, and the recognition likelihood is calculated for each of the plurality of homophones. switching whether to output the determined word as the text information converted into kanji or as the text information in kana characters, depending on the magnitude of the plurality of recognition likelihoods;
program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022038972A JP2023133782A (en) | 2022-03-14 | 2022-03-14 | Speech recognition text display system, speech recognition text display device, speech recognition text display method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022038972A JP2023133782A (en) | 2022-03-14 | 2022-03-14 | Speech recognition text display system, speech recognition text display device, speech recognition text display method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023133782A true JP2023133782A (en) | 2023-09-27 |
Family
ID=88143792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022038972A Pending JP2023133782A (en) | 2022-03-14 | 2022-03-14 | Speech recognition text display system, speech recognition text display device, speech recognition text display method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023133782A (en) |
-
2022
- 2022-03-14 JP JP2022038972A patent/JP2023133782A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102100389B1 (en) | Personalized entity pronunciation learning | |
US8560326B2 (en) | Voice prompts for use in speech-to-speech translation system | |
US6377925B1 (en) | Electronic translator for assisting communications | |
US10741172B2 (en) | Conference system, conference system control method, and program | |
CN107003823B (en) | Head-mounted display device and operation method thereof | |
US20180286388A1 (en) | Conference support system, conference support method, program for conference support device, and program for terminal | |
US20180288109A1 (en) | Conference support system, conference support method, program for conference support apparatus, and program for terminal | |
US20180288110A1 (en) | Conference support system, conference support method, program for conference support device, and program for terminal | |
EP3410433A1 (en) | Information processing device, information processing method, and program | |
CN106713111B (en) | Processing method for adding friends, terminal and server | |
JP7194507B2 (en) | CONFERENCE SYSTEM, CONFERENCE SYSTEM CONTROL METHOD AND PROGRAM | |
US20200043493A1 (en) | Translation device | |
JP7042141B2 (en) | Conference system, conference system control method and program | |
JP2023133782A (en) | Speech recognition text display system, speech recognition text display device, speech recognition text display method and program | |
JP4886098B1 (en) | Portable information terminal device | |
EP3644309A1 (en) | System and method for integrated printing of voice assistant search results | |
JP6950708B2 (en) | Information processing equipment, information processing methods, and information processing systems | |
JP2023148706A (en) | Speech recognition result display system, speech recognition result display device, and speech recognition result display method and non-transitory storage medium storing program | |
JP6962849B2 (en) | Conference support device, conference support control method and program | |
JP7316971B2 (en) | CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM | |
JP4971528B1 (en) | Handwritten text creation method and program | |
JP7471979B2 (en) | Meeting Support System | |
JP7384730B2 (en) | Conference support system, conference support method, and program | |
JP7152454B2 (en) | Information processing device, information processing method, information processing program, and information processing system | |
JP6640788B2 (en) | Language conversion program and language conversion device |