JP7087041B2 - Speech recognition text data output control device, speech recognition text data output control method, and program - Google Patents

Speech recognition text data output control device, speech recognition text data output control method, and program Download PDF

Info

Publication number
JP7087041B2
JP7087041B2 JP2020184011A JP2020184011A JP7087041B2 JP 7087041 B2 JP7087041 B2 JP 7087041B2 JP 2020184011 A JP2020184011 A JP 2020184011A JP 2020184011 A JP2020184011 A JP 2020184011A JP 7087041 B2 JP7087041 B2 JP 7087041B2
Authority
JP
Japan
Prior art keywords
block
display
voice recognition
text
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020184011A
Other languages
Japanese (ja)
Other versions
JP2022073807A (en
Inventor
浩也 木村
冬平 小沢
祥子 小林
隆矢 松本
喜夫 清家
雄一郎 山中
六郎 永田
大喜 明日
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TOKYO BROADCASTING SYSTEM TELEVISION, INC.
Original Assignee
TOKYO BROADCASTING SYSTEM TELEVISION, INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TOKYO BROADCASTING SYSTEM TELEVISION, INC. filed Critical TOKYO BROADCASTING SYSTEM TELEVISION, INC.
Priority to JP2020184011A priority Critical patent/JP7087041B2/en
Publication of JP2022073807A publication Critical patent/JP2022073807A/en
Application granted granted Critical
Publication of JP7087041B2 publication Critical patent/JP7087041B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

特許法第30条第2項適用 令和元年11月13日乃至11月15日 株式会社TBSテレビが、InterBEE2019にて、音声認識テキストデータ出力制御技術の要旨について公開した。 令和2年5月1日 株式会社TBSテレビが、映像情報メディア学会誌2020にて、音声認識テキストデータ出力制御技術の要旨について公開した。 令和2年9月16日 株式会社TBSテレビが、AI分科会にて、音声認識テキストデータ出力制御技術の要旨について公開した。 令和2年10月26日 株式会社TBSテレビが、ソニービジネスソリューション社の取材にて、音声認識テキストデータ出力制御技術の要旨について公開した。Application of Article 30, Paragraph 2 of the Patent Act November 13th to 15th, 1st year of Reiwa TBS Television Co., Ltd. released the summary of speech recognition text data output control technology at InterBEE2019. May 1, 2nd year of Reiwa TBS Television Co., Ltd. published the summary of speech recognition text data output control technology in the Journal of the Institute of Image Information and Television Engineers 2020. September 16, 2nd year of Reiwa TBS Television Co., Ltd. released the summary of speech recognition text data output control technology at the AI subcommittee. October 26, 2nd year of Reiwa TBS Television Co., Ltd. released the summary of voice recognition text data output control technology in an interview with Sony Business Solutions Corporation.

本発明は、音声認識テキストデータ出力制御技術に関する。 The present invention relates to a speech recognition text data output control technique.

現在、聴覚障がい者向けサービスのひとつとして、テレビ放送の音声をすべてテキスト化し、映像音声データと一緒にテキストをデータとして圧縮して放送をする、字幕放送が行われている。 Currently, as one of the services for the hearing impaired, subtitle broadcasting is being performed in which all the audio of television broadcasting is converted into text, and the text is compressed as data together with the video and audio data and broadcast.

近年、テレビ放送の視聴スタイルが変化し、家事を行いながらといった、いわゆる「ながら視聴」が増え、聴覚障がい者以外でも、字幕を表示しながらの視聴できる字幕放送の需要が高まっている。さらにスマートフォン、タブレットの普及により、音を出力できない環境でのテレビ視聴も増加、字幕放送の需要が急激に高まってきており、国をあげて字幕付与率の向上に努めている。 In recent years, the viewing style of television broadcasting has changed, so-called "watching while doing household chores" has increased, and there is an increasing demand for subtitle broadcasting that allows non-hearing people to watch while displaying subtitles. Furthermore, with the spread of smartphones and tablets, TV viewing in environments where sound cannot be output is increasing, and the demand for subtitle broadcasting is rapidly increasing, and the whole country is making efforts to improve the subtitle grant rate.

字幕番組用のテキストデータは、ドラマやバラエティといった事前収録番組の場合、あらかじめ準備をすることができるが、報道番組などの生放送では、放送しながらテキスト化をする必要があり、リアルタイムで音声をテキスト化する技術が求められている。 Text data for subtitled programs can be prepared in advance for pre-recorded programs such as dramas and varieties, but for live broadcasts such as news programs, it is necessary to convert the text into text while broadcasting, and the voice is texted in real time. There is a need for technology to change.

特開2001ー60192号公報Japanese Unexamined Patent Publication No. 2001-60192 特開2004ー72705号公報Japanese Unexamined Patent Publication No. 2004-72705 特開2004ー226910号公報Japanese Unexamined Patent Publication No. 2004-226910 特開2004ー240920号公報Japanese Unexamined Patent Publication No. 2004-240920 特開2014ー149490号公報Japanese Unexamined Patent Publication No. 2014-149490 特開2014ー219569号公報Japanese Unexamined Patent Publication No. 2014-219569

特許文献1、3の発明では、音声認識システムを利用した音声認識テキストをタッチパネル上にて、画面上に表示される認識結果をタッチして特定し、認識誤りの種別に応じて、必要であれば修正のための文字列を、キーボードを用いて入力している。この操作では画面タッチとキーボードの操作を行き来するため、修正手順だけでなくその動きにも習熟が必要で、迅速な修正作業が困難となる。 In the inventions of Patent Documents 1 and 3, the voice recognition text using the voice recognition system is specified by touching the recognition result displayed on the screen on the touch panel, and it is necessary according to the type of recognition error. For example, the character string for correction is input using the keyboard. Since this operation goes back and forth between screen touch and keyboard operation, it is necessary to master not only the correction procedure but also the movement, which makes quick correction work difficult.

特許文献2に記載されている従来のリアルタイム字幕制作システムでは、特殊訓練された数人の入力オペレータが音声を聞きながら高速タイピングを行う必要がある。この方式はオペレータコストが増加するだけではなく、聞き取り、タイピングによる遅延が発生、リアルタイム字幕放送にも関わらず字幕が実際の放送より遅れて表示されている。 In the conventional real-time subtitle production system described in Patent Document 2, several specially trained input operators need to perform high-speed typing while listening to voice. This method not only increases the operator cost, but also causes a delay due to listening and typing, and the subtitles are displayed later than the actual broadcast despite the real-time subtitle broadcast.

特許文献4に記載されている従来の校正システムは、数人オペレータが音声認識結果を確認しながら高速で修正を行う必要がある。特許文献2と同じくオペレータコストが増加するだけではなく、修正オペレーションよる遅延が発生し、リアルタイム字幕放送にも関わらず字幕が非常に遅れて表示されている。 In the conventional calibration system described in Patent Document 4, it is necessary for several operators to make corrections at high speed while checking the voice recognition result. As in Patent Document 2, not only the operator cost increases, but also a delay occurs due to the correction operation, and the subtitles are displayed with a very delay despite the real-time subtitle broadcasting.

特許文献5に記載されている従来の誤り修正システムは、仮説ラティスを用いて認識スコアを導き、不明瞭な発音や言い間違いといった音響的な理由場合は手書き文字認識で素早く正確に修正可能としているが、各スコアに関してはオペレータは確認することができず、最終的にはオペレータの熟練度によってオペレーションスピードが左右されてしまう。 The conventional error correction system described in Patent Document 5 derives a recognition score using hypothesis lattice, and can quickly and accurately correct acoustic reasons such as unclear pronunciation and typographical errors by handwriting recognition. However, the operator cannot confirm each score, and the operation speed is ultimately influenced by the skill level of the operator.

特許文献6に記載されている辞書作成装置は、統計学的音響モデルを用いてエントロピー計算を行い、言い間違い直し等の認識を中心に辞書作成(言語モデル更新)を行っているが、最新のニュースで使われている固有名詞の出現回数などを使った言語モデル更新には何ら言及しておらず、トレンドのニュース単語の認識率は上がらない。 The dictionary creation device described in Patent Document 6 performs entropy calculation using a statistical acoustic model, and creates a dictionary (language model update) focusing on recognition such as rephrasing. There is no mention of language model updates that use the number of occurrences of proper nouns used in news, and the recognition rate of trending news words does not increase.

そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、自由に再生コントロールできる映像音声再生装置で映像音声を確認することによって、音声認識処理テキストデータを、より正確に、且つ、少ない人数のオペレータで迅速に修正することが可能な音声認識テキストデータ出力制御技術を提供することを目的とする。 Therefore, some aspects of the present invention have been made in view of such circumstances, and by confirming the video / audio with a video / audio reproduction device capable of freely controlling the reproduction, the voice recognition processed text data can be more accurately obtained. Moreover, it is an object of the present invention to provide a voice recognition text data output control technique that can be corrected quickly by a small number of operators.

上記課題を解決するために、請求項1に記載の発明は、 音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御部と、を備えることを特徴としている。
In order to solve the above problems, the invention according to claim 1 is a voice recognition text data output control device that controls the output of voice data and text data that is the result of voice recognition of the voice data, and is voice. The analysis means for morphologically analyzing the text data group obtained by the recognition processing means and the text data group analyzed by the analysis means are displayed and controlled by block display for each morphological element, and the block displayed by the display control is performed. It is characterized by including a display control unit that controls the block display by grouping the plurality of blocks into one block when a right-horizontal swipe action is performed across a plurality of blocks of display .

請求項2の発明は、請求項1に記載の音声認識テキストデータ出力制御装置であって、音声認識処理を行う映像データ、または音声データを収録する第一収録部と、前記表示制御で表示された前記ブロック表示の1ブロックをダブルタップアクションした際に、前記1ブロックに該当するテキストに関連づけられている第一収録部に収録された音声データ再生する音声再生部と、前記1ブロックに該当するテキストに関連づけられている第一収録部に収録された映像データの一部の画像を再生する画像再生部と、を備えることを特徴としている。
The invention of claim 2 is the voice recognition text data output control device according to claim 1, which is displayed by the first recording unit for recording video data or voice data for performing voice recognition processing and the display control. When one block of the block display is double-tapped, the audio reproduction unit that reproduces the audio data recorded in the first recording unit associated with the text corresponding to the one block and the audio reproduction unit corresponding to the one block. It is characterized by including an image reproduction unit that reproduces a part of the image of the video data recorded in the first recording unit associated with the text.

請求項3の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションした際に、前記1ブロックを消去して表示、及び前記ブロック表示の1ブロックを下スワイプアクションした際に、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御する表示制御部と、前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションし、前記1ブロックを消去して表示したと同時に、前記1ブロックに該当するテキストを削除する、及び前記ブロック表示の1ブロックを下スワイプアクションし、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御すると同時に、前記1ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集部と、を備えることを特徴としている。
The invention of claim 3 is a voice recognition text data output control device that controls the output of voice data and text data that is the result of voice recognition of the voice data, and is a text data group obtained by the voice recognition processing means. When the analysis means for morphological analysis and the text data group analyzed by the analysis means are displayed and controlled by block display for each morphology, and one block of the block display displayed by the display control is swiped up. , When the one block is erased and displayed, and one block of the block display is swiped down, the blocks after the one block are displayed and controlled below the one block, and the display control unit. Swipe up one block of the block display displayed in, delete the one block and display it, and at the same time delete the text corresponding to the one block, and swipe down one block of the block display. However, the blocks after the one block are characterized in that the display is controlled below the one block, and at the same time, a text editing unit for inserting a line feed code after the text corresponding to the one block is provided.

請求項4の発明は、請求項3に記載の音声認識テキストデータ出力制御装置であって、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御部と、を備えることを特徴としている。
The invention of claim 4 is the voice recognition text data output control device according to claim 3 , wherein when a right lateral swipe action is performed across a plurality of blocks of the block display displayed by the display control, the plurality of said. It is characterized by including a display control unit that controls block display by grouping blocks into one block.

請求項5の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御を行い、前記表示制御で表示された前記ブロック表示の1ブロックをタップアクションした際に、前記1ブロックに該当するテキストを直接キーボードで修正可能なテキスト修正エリアを表示制御する表示制御部と、音声認識処理を行う映像データ、もしくは音声データを収録する第二収録部と、通常時は前記第二収録部に収録された映像データ、または音声データを映像音声データ受信時から設定した時間を遅延させて等倍再生し、前記設定した時間以上遅延していた場合は規定の倍速再生をする再生部と、前記表示制御部が前記修正エリアを表示した際に、前記再生部に対しスロー再生を指示するスロー再生指示部と、前記表示制御部が前記修正エリアの表示を終了した際に、前記再生部に対し規定の倍速再生を指示する倍速再生指示部と、を備えることを特徴としている。
The invention of claim 5 is a voice recognition text data output control device that controls the output of voice data and text data that is the result of voice recognition of the voice data, and is a text data group obtained by the voice recognition processing means. The analysis means that analyzes the morphology and the display control that controls the display of the text data group analyzed by the analysis means by block display for each morphology are performed , and one block of the block display displayed by the display control is tapped. A display control unit that displays and controls a text correction area that can directly correct the text corresponding to the one block with the keyboard, and a second recording unit that records video data or voice data for voice recognition processing. Normally, the video data or audio data recorded in the second recording unit is played back at the same magnification with a delay of the set time from the time of receiving the video / audio data, and if the delay is longer than the set time , the specified time is specified. The reproduction unit that performs double-speed reproduction, the slow reproduction instruction unit that instructs the reproduction unit to perform slow reproduction when the display control unit displays the correction area, and the display control unit end the display of the correction area. It is characterized in that it is provided with a double-speed reproduction instruction unit that instructs the reproduction unit to perform a predetermined double-speed reproduction.

請求項6の発明は、請求項5に記載の音声認識テキストデータ出力制御装置であって、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御部と、を備えることを特徴としている。
The invention of claim 6 is the voice recognition text data output control device according to claim 5 , wherein when a right lateral swipe action is performed across a plurality of blocks of the block display displayed by the display control, the plurality of said. It is characterized by including a display control unit that controls block display by grouping blocks into one block .

請求項7の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御ステップと、を備えることを特徴としている。
The invention of claim 7 is a voice recognition text data output control method for controlling the output of voice data and text data as a result of voice recognition of the voice data, and is a text data group obtained by the voice recognition processing means. The display control of the analysis step for morphological analysis and the text data group analyzed in the analysis step is performed in a block display for each morphological element, and a right-horizontal swipe is performed across a plurality of blocks of the block display displayed by the display control. It is characterized by including a display control step for controlling the block display by grouping the plurality of blocks into one block when an action is taken.

請求項8の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションした際に、前記1ブロックを消去して表示制御する、及び前記ブロック表示の1ブロックを下スワイプアクションした際に、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御する表示制御ステップと、前記表示制御ステップで表示された前記ブロック表示の1ブロックを上スワイプアクションし、前記1ブロックを消去して表示したと同時に、前記1ブロックに該当するテキストを削除する、及び前記ブロック表示の1ブロックを下スワイプアクションし、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御すると同時に、前記1ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集ステップと、を備えることを特徴としている。
The invention of claim 8 is a voice recognition text data output control method for controlling the output of voice data and text data as a result of voice recognition of the voice data, and is a text data group obtained by the voice recognition processing means. When the analysis step for morphological analysis and the text data group analyzed in the analysis step are controlled to be displayed in a block display for each morphological element, and one block of the block display displayed by the display control is swiped up. , The display control step of erasing the one block and controlling the display, and when the one block of the block display is swiped down, the blocks after the one block are displayed and controlled below the one block, and the display control step. Swipe up one block of the block display displayed in the display control step to erase and display the one block, and at the same time, delete the text corresponding to the one block and display one block of the block display. It is characterized by having a text editing step in which a lower swipe action is performed to control the display of blocks after the first block in a lower row than the one block, and at the same time, a line feed code is inserted after the text corresponding to the one block. There is.

請求項9の発明は、音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御するコンピュータを、音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段、前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御手段、を備えることを特徴としており、請求項10の発明は、前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションした際に、前記1ブロックを消去して表示制御する、及び前記ブロック表示の1ブロックを下スワイプアクションした際に、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御する表示制御手段、前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションし、前記1ブロックを消去して表示したと同時に、前記1ブロックに該当するテキストを削除する、及びブロック表示の1ブロックを下スワイプアクションし、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御すると同時に、前記1ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集手段、を備えることを特徴としている。
The invention of claim 9 is a voice recognition text data output control computer that controls the output of voice data and text data that is the result of voice recognition of the voice data, and a text data group obtained by a voice recognition processing means. The analysis means for morphological analysis and the text data group analyzed by the analysis means were displayed and controlled in a block display for each morphological element, and a right-horizontal swipe action was performed across a plurality of blocks of the block display displayed by the display control. The present invention is characterized in that it is provided with a display control means for controlling the block display by grouping the plurality of blocks into one block, and the invention of claim 10 is to display one block of the block display displayed by the display control. When the swipe action is performed, the one block is erased and the display is controlled, and when one block of the block display is swiped down, the blocks after the one block are displayed and controlled below the one block. The control means, one block of the block display displayed by the display control is swiped up, the one block is erased and displayed, and at the same time, the text corresponding to the one block is deleted, and one of the block display. It is characterized by having a text editing means for swiping down a block to control the display of blocks after the first block at a lower level than the one block and at the same time inserting a line feed code after the text corresponding to the one block. It is supposed to be.

本発明によれば、修正が容易に行うことができるため、オペレータコストを抑えつつ、正確、且つ、迅速に修正することが可能となるため、音声認識テキストデータ出力制御技術を提供することができる。 According to the present invention, since the correction can be easily performed, it is possible to perform the correction accurately and quickly while suppressing the operator cost, so that it is possible to provide a voice recognition text data output control technique. ..

本発明の実施形態に係る情報処理システムの概略構成(システム構成)の一例を示す図である。It is a figure which shows an example of the schematic structure (system structure) of the information processing system which concerns on embodiment of this invention. 本発明の実施形態に係る音声認識処理サーバの一例を示す概略構成図(ブロック図)である。It is a schematic block diagram (block diagram) which shows an example of the voice recognition processing server which concerns on embodiment of this invention. 本発明の実施形態に係る音声認識テキストデータ出力制御サーバ一例を示す概略構成図(ブロック図)である。It is a schematic block diagram (block diagram) which shows an example of the voice recognition text data output control server which concerns on embodiment of this invention. 本発明の実施形態に係る形態素解析処理サーバの一例を示す概略構成図(ブロック図)である。It is a schematic block diagram (block diagram) which shows an example of the morphological analysis processing server which concerns on embodiment of this invention. 本発明の実施形態に係る情報処理装置の一例を示す概略構成図(ブロック図)である。It is a schematic block diagram (block diagram) which shows an example of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る映像・音声再生装置の一例を示す概略構成図(ブロック図)である。It is a schematic block diagram (block diagram) which shows an example of the video / audio reproduction apparatus which concerns on embodiment of this invention. 本発明の辞書生成処理例1に係る辞書生成処理制御の一例を示すフローチャートである。It is a flowchart which shows an example of the dictionary generation processing control which concerns on the dictionary generation processing example 1 of this invention. 本発明の辞書生成処理例1に係る辞書生成処理制御のテキスト選択過程の解説図と選択するための数式例である。It is an explanatory diagram of the text selection process of the dictionary generation processing control which concerns on the dictionary generation processing example 1 of this invention, and is an example of the mathematical formula for selection. 本発明の辞書生成処理例1に係る情報処理装置に表示される画面の一例を示す図である。It is a figure which shows an example of the screen displayed on the information processing apparatus which concerns on the dictionary generation processing example 1 of this invention. 本発明の辞書生成処理例2に係る辞書生成処理制御の一例を示すフローチャートである。It is a flowchart which shows an example of the dictionary generation processing control which concerns on the dictionary generation processing example 2 of this invention. 本発明の実施形態に係る音声認識処理、テキスト出力制御処理、及びテキストの修正処理の一例を示すフローチャートである。It is a flowchart which shows an example of the voice recognition processing, the text output control processing, and the text correction processing which concerns on embodiment of this invention. 情報処理装置5に表示されるテキスト修正画面の一例を示す図である。It is a figure which shows an example of the text correction screen displayed on the information processing apparatus 5. 情報処理装置5に表示されるテキスト修正画面の一例で、エリア変更ボタンのタッチアクションを示す図である。It is an example of the text correction screen displayed on the information processing apparatus 5, and is the figure which shows the touch action of the area change button. 情報処理装置5に表示されるテキスト修正画面の一例で、下フリックのタッチアクションを示す図である。It is an example of the text correction screen displayed on the information processing apparatus 5, and is the figure which shows the touch action of the lower flick . 情報処理装置5に表示されるテキスト修正画面の一例で、右スワイプのタッチアクションを示す図である。It is an example of the text correction screen displayed on the information processing apparatus 5, and is the figure which shows the touch action of right swipe. 情報処理装置5に表示されるテキスト修正画面の一例で、左スワイプのタッチアクションを示す図である。It is an example of the text correction screen displayed on the information processing apparatus 5, and is the figure which shows the touch action of a left swipe. 情報処理装置5に表示されるテキスト修正画面の一例で、シングルタッチアクションを示す図である。It is an example of the text correction screen displayed on the information processing apparatus 5, and is the figure which shows the single touch action. 情報処理装置5に表示される音声認識確度正答率の一例を示す画面の図である。It is a figure of the screen which shows an example of the voice recognition accuracy correct answer rate displayed on the information processing apparatus 5. 本発明の映像・音声再生装置の動作の一例を示すフローチャートである。It is a flowchart which shows an example of the operation of the video / audio reproduction apparatus of this invention. 本発明の映像・音声再生装置の動作の一例を示すフローチャートである。It is a flowchart which shows an example of the operation of the video / audio reproduction apparatus of this invention.

以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. The following embodiments are examples for explaining the present invention, and the present invention is not intended to be limited only to the embodiments thereof. Further, the present invention can be modified in various ways as long as it does not deviate from the gist thereof. Further, in each drawing, the same components are designated by the same reference numerals as much as possible, and duplicate description will be omitted.

図1は、本発明の実施形態に係る情報処理システム100の一実施形態を示す概略構成図(システム構成図)である。図1に示すように、本発明の実施の形態に係る情報処理システム100は、例示的にリアルタイム音声入力処理装置1、音声認識処理サーバ2、音声認識テキストデータ出力制御サーバ3、形態素解析処理サーバ4、情報処理装置5、映像・音声再生装置6及びを備えて構成されている。 FIG. 1 is a schematic configuration diagram (system configuration diagram) showing an embodiment of the information processing system 100 according to the embodiment of the present invention. As shown in FIG. 1, the information processing system 100 according to the embodiment of the present invention is exemplified by a real-time voice input processing device 1, a voice recognition processing server 2, a voice recognition text data output control server 3, and a morphological analysis processing server. 4. It is configured to include an information processing device 5, a video / audio reproduction device 6, and the like.

リアルタイム音声入力処理装置1は、アナログ音声データ及びデジタル音声データをリアルタイムで受信することができる装置である。リアルタイム音声入力処理装置1は、リアルタイム音声データとして受信された音声データを、情報処理システム100内で処理を可能とする形式のデータに変更する機能を有し、例えば、人の声以外の周波数を取り除くノイズキャンセルや、無音区間で区切るなどのデータ処理を行う装置である。 The real-time voice input processing device 1 is a device capable of receiving analog voice data and digital voice data in real time. The real-time voice input processing device 1 has a function of changing voice data received as real-time voice data into data in a format that can be processed in the information processing system 100, and for example, a frequency other than human voice is used. It is a device that performs data processing such as noise cancellation to be removed and division by silent sections.

音声認識処理サーバ2は、リアルタイム音声入力処理装置1と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識処理サーバ2は、音声認識処理方法に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識処理装置として機能するものである。具体的に、音声認識処理サーバ2は、リアルタイム音声入力処理装置1から送信される音声データを受信し、音声認識処理を実行し、音声認識させた結果であるテキストデータ、および音声データを後段のサーバに送信する。また、音声認識処理の精度を向上させるために、辞書データとなるテキストデータ群を受信する機能を有するものである。さらに、誤った音声認識をした際に、後段の装置で修正を行った場合、その修正の記録を受信する機能も有している。音声認識処理サーバ2は記憶領域を有しており、音声認識処理を実行する際に使用される、単数又は複数の、音声認識プログラム、各種データベース、及び各種モデルが格納されている。なお、本実施形態においては、日本語のみならず、英語等の外国語についても対象としてもよい。音声認識処理サーバ2のさらに具体的な構成及び動作については、後述する。 The voice recognition processing server 2 is a server computer connected to a predetermined network so as to be able to communicate with the real-time voice input processing device 1. The voice recognition processing server 2 functions as a voice recognition processing device by the server computer executing a software program related to the voice recognition processing method. Specifically, the voice recognition processing server 2 receives voice data transmitted from the real-time voice input processing device 1, executes voice recognition processing, and performs voice recognition processing, resulting in text data and voice data in the subsequent stage. Send to the server. Further, in order to improve the accuracy of the voice recognition process, it has a function of receiving a text data group as dictionary data. Further, it also has a function of receiving a record of the correction when the correction is made by the device in the subsequent stage when the erroneous voice recognition is performed. The voice recognition processing server 2 has a storage area, and stores one or more voice recognition programs, various databases, and various models used when executing voice recognition processing. In this embodiment, not only Japanese but also foreign languages such as English may be targeted. A more specific configuration and operation of the voice recognition processing server 2 will be described later.

音声認識テキストデータ出力制御サーバ3は、音声認識処理サーバ2、及び後述する形態素解析処理サーバ4はと通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識テキストデータ出力制御サーバ3は、本実施形態に係る音声認識テキストデータ出力制御に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識テキストデータ出力制御装置として機能を有するものである。具体的に、音声認識テキストデータ出力制御サーバ3は、音声認識処理サーバ2から受信した音声認識テキストデータと音声データを後述する情報処理装置5に送信しながら、情報処理装置5から受信した修正結果であるテキストデータの出力を制御する。音声認識テキストデータ出力制御サーバ3のさらに具体的な構成及び動作については、後述する。 The voice recognition text data output control server 3 is a server computer connected to a predetermined network so as to be able to communicate with the voice recognition processing server 2 and the morphological analysis processing server 4 described later. The voice recognition text data output control server 3 has a function as a voice recognition text data output control device by the server computer executing the software program related to the voice recognition text data output control according to the present embodiment. Specifically, the voice recognition text data output control server 3 transmits the voice recognition text data and the voice data received from the voice recognition processing server 2 to the information processing device 5 described later, and the correction result received from the information processing device 5. Controls the output of text data that is. A more specific configuration and operation of the voice recognition text data output control server 3 will be described later.

形態素解析処理サーバ4は、音声認識処理サーバ2と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。形態素解析処理サーバ4は、外部のシステムのテキストデータ群又は装置内部のテキストデータ群から受け取ったテキストデータ群を受信し、本実施形態に係る形態素解析処理に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、辞書データを生成する機能を有するものである。辞書データとなるテキストデータを生成後は音声認識処理サーバ2、もしくは音声認識テキストデータ出力制御サーバ3に辞書データを送信する機能も有する。形態素解析処理サーバ4は記憶領域を有しており、形態素解析処理を実行する際に使用される、単数又は複数の、形態素解析処理プログラム、各種データベースが格納されている。形態素解析処理サーバ4のさらに具体的な構成及び動作については、後述する。 The morphological analysis processing server 4 is a server computer connected to a predetermined network so as to be able to communicate with the voice recognition processing server 2. The morpheme analysis processing server 4 receives the text data group received from the text data group of the external system or the text data group inside the device, and the server computer executes the software program related to the morpheme analysis processing according to the present embodiment. As a result, it has a function of generating dictionary data. After generating the text data to be the dictionary data, it also has a function of transmitting the dictionary data to the voice recognition processing server 2 or the voice recognition text data output control server 3. The morphological analysis processing server 4 has a storage area, and stores a single or a plurality of morphological analysis processing programs and various databases used when executing the morphological analysis processing. A more specific configuration and operation of the morphological analysis processing server 4 will be described later.

情報処理装置5は、形態素解析処理サーバ4から辞書データとなるテキストデータ群を受信し、辞書編集後に再度形態素解析処理サーバ4へ辞書を送信する機能、及び、音声認識テキストデータ出力制御サーバ3から取得したテキストデータを受信及び修正したテキストを音声認識テキストデータ出力制御サーバ3へ出力する機能を有する装置である。情報処理装置5は、汎用のコンピュータ装置であり、例えば、所定のネットワークに接続されたスマートフォン等の携帯電話、タブレット端末、ラップトップ/ノートブック型コンピュータ、及び据え置き型コンピュータ等である。 The information processing apparatus 5 receives a text data group to be dictionary data from the morphological analysis processing server 4, edits the dictionary, and then sends the dictionary to the morphological analysis processing server 4 again, and from the voice recognition text data output control server 3. It is a device having a function of receiving the acquired text data and outputting the corrected text to the voice recognition text data output control server 3. The information processing device 5 is a general-purpose computer device, and is, for example, a mobile phone such as a smartphone connected to a predetermined network, a tablet terminal, a laptop / notebook computer, a stationary computer, or the like.

映像・音声再生装置6は、音声認識テキストデータ出力制御サーバ3から制御を受ける機能を有するサーバ用コンピュータ、もしくは専用装置である。映像・音声再生装置6は、外部システムから映像・音声データを受信、一定時間後に映像・音声を再生する。通常は決められた再生速度で再生されているが、音声認識テキストデータ出力制御サーバ3の制御で、再生を停止させたり、少し戻して再生をしたり、倍速再生などを行う装置である。映像・音声再生装置6のさらに具体的な構成及び動作については、後述する。 The video / audio reproduction device 6 is a server computer or a dedicated device having a function of receiving control from the voice recognition text data output control server 3. The video / audio reproduction device 6 receives video / audio data from an external system and reproduces the video / audio after a certain period of time. Normally, it is reproduced at a predetermined reproduction speed, but under the control of the voice recognition text data output control server 3, it is a device that stops the reproduction, returns it a little and reproduces it, double-speed reproduction, and the like. A more specific configuration and operation of the video / audio reproduction device 6 will be described later.

音声認識プログラムは、音声認識処理サーバ2のメインプログラムである上述したサーバ用プログラム等である。音声認識プログラムは、リアルタイム音声入力処理装置1から送信されてくる音声データを基に、情報処理を行うため、記憶領域から呼び出されて実行される。各種データベースは、音声認識処理のために必要な各種辞書、例えば日本語辞書、外国語辞書等が含まれる。各種モデルは、音声認識に使用する音響モデルAMDや言語モデル等を含む。またこの辞書は形態素解析処理サーバ4から受信した辞書データとなるテキストデータ群を受信、もしくは誤った音声認識結果を情報処理装置5で修正した修正データを音声認識テキストデータ出力制御サーバ3経由で受信し、辞書をアップデートする機能を有する。 The voice recognition program is the above-mentioned server program or the like, which is the main program of the voice recognition processing server 2. The voice recognition program is called from the storage area and executed in order to perform information processing based on the voice data transmitted from the real-time voice input processing device 1. The various databases include various dictionaries necessary for speech recognition processing, such as Japanese dictionaries and foreign language dictionaries. Various models include acoustic model AMD and language model used for speech recognition. Further, this dictionary receives a text data group which is dictionary data received from the morphological analysis processing server 4, or receives correction data obtained by correcting an erroneous voice recognition result by the information processing apparatus 5 via a voice recognition text data output control server 3. And it has a function to update the dictionary.

所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、リアルタイム音声入力処理装置1と音声認識処理サーバ2との間、音声認識処理サーバ2と音声認識テキストデータ出力制御サーバ3との間、音声認識処理サーバ2と形態素解析処理サーバ4との間、音声認識テキストデータ出力制御サーバ3と情報処理装置5との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、LAN(Local Area Network)、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。 The predetermined network is, for example, a communication line or a communication network related to information processing including the Internet, etc., and is between the real-time voice input processing device 1 and the voice recognition processing server 2, the voice recognition processing server 2 and the voice recognition text data output control. Various information and various data can be transmitted and received between the voice recognition processing server 2 and the voice recognition processing server 2 and between the voice recognition text data output control server 3 and the information processing device 5. There are no particular restrictions as long as it is configured. A predetermined network is realized by, for example, a broadband network such as the Internet, a core network such as a mobile telephone network, a LAN (Local Area Network), or a narrow band network combining these.

なお、情報処理システム100は、本実施形態では、リアルタイム音声入力処理装置1、音声認識処理サーバ2、音声認識テキストデータ出力制御サーバ3、形態素解析処理サーバ4、情報処理装置5、及び映像・音声再生装置6を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、リアルタイム音声入力処理装置1に関しては、情報処理システム100が扱える音声データ形式で各装置に入力されていれば、設置しなくてもよい。また、情報処理装置5に関しては、複数台設置して、同時に音声認識テキストデータ出力制御サーバ3と通信を行ってもよい。また、音声認識処理サーバ2の機能と音声認識テキストデータ出力制御サーバ3の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。 In the present embodiment, the information processing system 100 includes a real-time voice input processing device 1, a voice recognition processing server 2, a voice recognition text data output control server 3, a morphological analysis processing server 4, an information processing device 5, and video / audio. It is configured to include one playback device 6 at a time, but it is not always necessary to have one playback device at a time. For example, the real-time voice input processing device 1 may not be installed as long as it is input to each device in a voice data format that can be handled by the information processing system 100. Further, a plurality of information processing devices 5 may be installed and simultaneously communicate with the voice recognition text data output control server 3. Further, the function of the voice recognition processing server 2 and the function of the voice recognition text data output control server 3 may be configured on the same server, or the functions may be provided on a server having another function.

図2は、本発明の実施形態に係る音声認識処理サーバ2の一例を示す概略構成図(ブロック図)である。図2に示すように、音声認識処理サーバ2は、例示的に、各種データ及び各種情報を送受信する送受信部21と、テキストデータ及び音声データの出力を制御するための各種処理を実行する情報処理部22と、各種情報及び各種データを記録する記憶部23と、を備えて構成される。なお、情報処理部22は、例えば、不図示であるが、記憶部23に格納されているプログラムをCPU等が実行したりすることにより実現することができる。 FIG. 2 is a schematic configuration diagram (block diagram) showing an example of the voice recognition processing server 2 according to the embodiment of the present invention. As shown in FIG. 2, the voice recognition processing server 2 is exemplified by an information processing unit 21 that transmits and receives various data and various information, and information processing that executes various processes for controlling the output of text data and voice data. A unit 22 and a storage unit 23 for recording various information and various data are provided. Although not shown, the information processing unit 22 can be realized by the CPU or the like executing a program stored in the storage unit 23, for example.

送受信部21は機能的に、リアルタイム音声データ受信部211と、辞書テキストデータ受信部212と、修正結果テキストデータ受信部213と、音声認識結果テキストデータ/音声データ送信部214と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。 The transmission / reception unit 21 functionally includes a real-time voice data reception unit 211, a dictionary text data reception unit 212, a modification result text data reception unit 213, and a voice recognition result text data / voice data transmission unit 214. Has been done. It also includes a transmitting unit (not shown) for transmitting various data and various information, and a receiving unit (not shown) for receiving various data and various information.

リアルタイム音声データ受信部211は、図1に示すリアルタイム音声入力処理装置1からリアルタイム音声データを受信する。例えば、リアルタイム音声データ受信部211は、図1に示すリアルタイム音声入力処理装置1が区間分割、及び適正化し、音声が入力された時刻を時刻情報化し、タグ付けされた音声データを受信する。 The real-time voice data receiving unit 211 receives real-time voice data from the real-time voice input processing device 1 shown in FIG. For example, in the real-time voice data receiving unit 211, the real-time voice input processing device 1 shown in FIG. 1 divides and optimizes the section, converts the time when the voice is input into time information, and receives the tagged voice data.

辞書テキストデータ受信部212は、図1に示す形態素解析処理サーバ4から辞書データとなるテキストデータを受信する。例えば、辞書テキストデータ受信部212は、図1に示す形態素解析処理サーバ4が外部テキストの形態素解析を実施し、生成した辞書テキストデータ適正なタイミングで受信する。 The dictionary text data receiving unit 212 receives text data to be dictionary data from the morphological analysis processing server 4 shown in FIG. For example, in the dictionary text data receiving unit 212, the morphological analysis processing server 4 shown in FIG. 1 performs morphological analysis of the external text and receives the generated dictionary text data at an appropriate timing.

修正結果テキストデータ受信部213は、図1に示す情報処理装置5からテキスト修正結果データを音声認識テキストデータ出力制御サーバ3経由で受信する。例えば、修正結果テキストデータ受信部213は、図1に示す情報処理装置5が、字幕を送出する直前で修正したテキストを時刻情報と共に辞書化したテキスト修正結果データを音声認識テキストデータ出力制御サーバ3へ送信し、音声認識テキストデータ出力制御サーバ3から修正結果を受信する。 The correction result text data receiving unit 213 receives the text correction result data from the information processing device 5 shown in FIG. 1 via the voice recognition text data output control server 3. For example, the correction result text data receiving unit 213 uses the information processing device 5 shown in FIG. 1 to convert the text corrected immediately before transmitting the subtitle into a dictionary together with the time information, and the text correction result data is stored in the voice recognition text data output control server 3. And receives the correction result from the voice recognition text data output control server 3.

音声認識結果テキストデータ/音声データ送信部214は、音声認識結果であるテキストデータを図1に示す音声認識テキストデータ出力制御サーバ3へ送信する。例えば、リアルタイム音声データ受信部211で受信したリアルタイム音声データを情報処理部22による音声認識処理でテキスト化し、結果であるテキストデータに音声時刻情報をタグ付けして図1に示す音声認識テキストデータ出力制御サーバ3へ送信する。また、テキストデータ送信と同時に音声データも送信する。音声認識テキストデータには認識候補が他にある場合、音声認識テキストデータに認識候補テキストを候補順にタグづけして送信する。その認識候補には音声認識の確度の高さを表す音声認識確度データを付与して送信してもよい。 The voice recognition result text data / voice data transmission unit 214 transmits the voice recognition result text data to the voice recognition text data output control server 3 shown in FIG. For example, the real-time voice data received by the real-time voice data receiving unit 211 is converted into text by voice recognition processing by the information processing unit 22, and the resulting text data is tagged with voice time information to output the voice recognition text data shown in FIG. Send to control server 3. In addition, voice data is also transmitted at the same time as text data is transmitted. If there are other recognition candidates in the voice recognition text data, the recognition candidate text is tagged in the voice recognition text data in the order of the candidates and transmitted. The recognition candidate may be given voice recognition accuracy data indicating the high accuracy of voice recognition and transmitted.

情報処理部22は機能的に、音声認識部221と、辞書データ生成部222と、テキスト出力部223と、を含んで構成されている。 The information processing unit 22 is functionally configured to include a voice recognition unit 221, a dictionary data generation unit 222, and a text output unit 223.

音声認識部221は、リアルタイム音声データ受信部211から受信した音声データを記憶部23に記憶されている音声認識プログラム(不図示)を使って、音声認識処理を行う。音声認識をする際に、認識候補テキストが他にある場合、認識候補テキストの候補順を認識テキストにタグづけしてもよい。その認識候補テキストには音声認識の確度の高さを表す音声認識確度データを付与して送信してもよい。例えば、このプログラム処理を行う際、記憶部23に記憶されている各モデル、辞書を使うことによって、音声認識の効率を上げている。なお、音声認識部221は受信したリアルタイム音声データに時刻情報のタグ付けを行い、記憶部23に保存する。 The voice recognition unit 221 performs voice recognition processing by using a voice recognition program (not shown) in which the voice data received from the real-time voice data reception unit 211 is stored in the storage unit 23. When performing voice recognition, if there are other recognition candidate texts, the candidate order of the recognition candidate texts may be tagged with the recognition texts. Speech recognition accuracy data indicating the high accuracy of speech recognition may be added to the recognition candidate text and transmitted. For example, when performing this program processing, the efficiency of voice recognition is improved by using each model and dictionary stored in the storage unit 23. The voice recognition unit 221 tags the received real-time voice data with time information and stores it in the storage unit 23.

辞書データ生成部222は、辞書テキストデータ受信部212から受信したテキストデータ、もしくは修正結果テキストデータ受信部213から受信した時刻情報付きテキストデータを、記憶部23に記憶されている辞書に格納できる形式に辞書テキストデータへ変換する処理を行う。 The dictionary data generation unit 222 can store the text data received from the dictionary text data reception unit 212 or the text data with time information received from the correction result text data reception unit 213 in the dictionary stored in the storage unit 23. Performs the process of converting to dictionary text data.

テキスト出力部223は、記憶部23に記憶されている辞書を使って、音声認識部221が音声認識データから音声認識処理を行い、音声データをテキスト化した後、そのテキストを出力する処理を行う。 In the text output unit 223, the voice recognition unit 221 performs voice recognition processing from the voice recognition data using the dictionary stored in the storage unit 23, converts the voice data into text, and then outputs the text. ..

記憶部23は、あらかじめ定義された音響モデルAMDと、言語モデルデータLMDと、を記録し、保存されている。音響モデルAMDと、言語モデルデータLMDはあらかじめ定義されており、情報処理システム100内では自動アップデートはされなくてもよいが、外部からのデータ受信(不図示)にてアップデートすることは可能である。音響モデルAMDと、言語モデルデータLMDは、図1に示す情報処理装置5から修正結果テキストデータ受信部213を通じて受信したテキスト修正結果データを利用し、自動アップデートはされてもよい。 The storage unit 23 records and stores the predefined acoustic model AMD and the language model data LMD. The acoustic model AMD and the language model data LMD are defined in advance and may not be automatically updated in the information processing system 100, but can be updated by receiving data from the outside (not shown). .. The acoustic model AMD and the language model data LMD may be automatically updated by using the text correction result data received from the information processing apparatus 5 shown in FIG. 1 through the correction result text data receiving unit 213.

記憶部23は、情報処理システム100内で自動アップデートされる辞書データDIDと、を記録し、保存されている。辞書データは辞書データ生成部222によって生成された辞書テキストデータにて自動アップデートされ、適宜辞書テキストデータが音声認識部221の処理を支援する。 The storage unit 23 records and stores the dictionary data DID that is automatically updated in the information processing system 100. The dictionary data is automatically updated with the dictionary text data generated by the dictionary data generation unit 222, and the dictionary text data appropriately supports the processing of the voice recognition unit 221.

記憶部23は、リアルタイム音声データ受信部211で受信したリアルタイム音声データに音声認識部221にて時刻情報をタグ付けされた、時刻付き音声データATD2が記録されている。修正結果テキストデータ受信部213で受信したテキスト修正結果データと、最初に受信したリアルタイム音声データに時刻情報をタグ付けした時刻付き音声データATD2を使って、音声認識部221の認識率向上に貢献する。 The storage unit 23 records the timed voice data ATD2 in which the time information is tagged by the voice recognition unit 221 with the real-time voice data received by the real-time voice data receiving unit 211. The text correction result data received by the correction result text data receiving unit 213 and the timed voice data ATD2 in which the time information is tagged with the first received real-time voice data are used to contribute to the improvement of the recognition rate of the voice recognition unit 221. ..

図3は、本発明の実施形態に係る音声認識テキストデータ出力制御サーバ3の一例を示す概略構成図(ブロック図)である。図3に示すように、音声認識テキストデータ出力制御サーバ3は、例示的に、各種データ及び各種情報を送受信する送受信部31と、テキストデータの修正制御するための各種処理を実行する情報処理部32と、各種情報及び各種データを記録する記憶部33と、を備えて構成される。なお、情報処理部32は、例えば、不図示であるが、記憶部33に格納されているプログラムをCPU等が実行したりすることにより実現することができる。 FIG. 3 is a schematic configuration diagram (block diagram) showing an example of the voice recognition text data output control server 3 according to the embodiment of the present invention. As shown in FIG. 3, the voice recognition text data output control server 3 is exemplified by a transmission / reception unit 31 that transmits / receives various data and various information, and an information processing unit that executes various processes for correction control of the text data. 32 and a storage unit 33 for recording various information and various data are provided. Although not shown, the information processing unit 32 can be realized by the CPU or the like executing a program stored in the storage unit 33, for example.

送受信部31は機能的に、音声認識結果テキスト/音声データ受信部311と、放送用テキストデータ送信部312と、辞書テキストデータ受信部313と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。 The transmission / reception unit 31 is functionally configured to include a voice recognition result text / voice data reception unit 311, a broadcast text data transmission unit 312, and a dictionary text data reception unit 313. It also includes a transmitting unit (not shown) for transmitting various data and various information, and a receiving unit (not shown) for receiving various data and various information.

音声認識結果テキスト/音声データ受信部311は、図1に示す音声認識処理サーバ2から音声認識結果である音声認識結果テキストデータと音声データを受信する。受信した音声認識結果テキストデータと音声データは音声認識処理サーバ2で時刻情報がタグ付けされ、音声認識結果テキストデータを生成した時間が判別できるようにしておく。 The voice recognition result text / voice data receiving unit 311 receives the voice recognition result text data and the voice data which are the voice recognition results from the voice recognition processing server 2 shown in FIG. The received voice recognition result text data and voice data are tagged with time information by the voice recognition processing server 2 so that the time when the voice recognition result text data is generated can be determined.

放送用テキストデータ送信部312は、音声認識結果テキスト/音声データ受信部311で受信した音声認識結果テキストデータを修正した放送用テキストデータを外部システムに送信する。外部システムは放送用字幕を送出するデータに変換するシステムなどが考えられる。 The broadcast text data transmission unit 312 transmits the broadcast text data obtained by modifying the voice recognition result text data received by the voice recognition result text / voice data reception unit 311 to the external system. The external system may be a system that converts subtitles for broadcasting into data to be transmitted.

辞書テキストデータ受信部313は、図1に示す形態素解析処理サーバ4から辞書データとなるテキストデータを受信する。例えば、辞書テキストデータ受信部313は、図1に示す形態素解析処理サーバ4が外部テキストの形態素解析を実施し、生成した辞書テキストデータ適正なタイミングで受信する。 The dictionary text data receiving unit 313 receives text data to be dictionary data from the morphological analysis processing server 4 shown in FIG. For example, in the dictionary text data receiving unit 313, the morphological analysis processing server 4 shown in FIG. 1 performs morphological analysis of the external text and receives the generated dictionary text data at an appropriate timing.

辞書用修正結果テキストデータ送信部314は、音声認識結果テキスト/音声データ受信部311で受信した音声認識結果テキストデータを、正しいテキストに修正したテキストデータを図1に示す音声認識処理サーバ2へ、修正結果テキストデータとして送信する。例えば、修正したテキストデータには、修正前の音声認識結果テキストデータにタグ付けされていた時刻情報を基に時刻情報をタグ付け、もしくは情報処理システム100内で管理されている固有のシステムIDをタグ付けするなどで、修正したデータが特定できるようにしておく。 The correction result text data transmission unit 314 for the dictionary converts the voice recognition result text data received by the voice recognition result text / voice data reception unit 311 into the correct text to the voice recognition processing server 2 shown in FIG. The correction result is sent as text data. For example, the modified text data is tagged with time information based on the time information tagged in the voice recognition result text data before modification, or a unique system ID managed in the information processing system 100 is used. Make it possible to identify the corrected data by tagging it.

修正前テキスト/音声送信部315は、音声認識結果テキスト/音声データ受信部311で受信した音声認識結果テキストデータと音声データを、図1に示す情報処理装置5へ、修正前データとして送信する。例えば、受信した音声認識結果テキストデータと音声データを情報処理装置5に送信し、情報処理装置5で音声認識が正しかったか確認ができるようにする。 The uncorrected text / voice transmission unit 315 transmits the voice recognition result text data and the voice data received by the voice recognition result text / voice data receiving unit 311 to the information processing apparatus 5 shown in FIG. 1 as uncorrected data. For example, the received voice recognition result text data and voice data are transmitted to the information processing device 5, so that the information processing device 5 can confirm whether the voice recognition is correct.

情報処理部32は機能的に、形態素解析部321と、表示制御部322と、テキスト編集部323と、修正結果辞書生成部324と、放送用テキスト出力部325と、を含んで構成されている。 The information processing unit 32 is functionally composed of a morphological analysis unit 321, a display control unit 322, a text editing unit 323, a correction result dictionary generation unit 324, and a broadcasting text output unit 325. ..

形態素解析部321は、音声認識結果データテキスト/音声データ受信部311で受信した音声認識結果データテキストを形態素解析する。形態素解析とは文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。形態素解析を行った前記テキストは形態素毎の列に分割され、後述する表示制御部322で形態素毎にブロック表示制御を行う。 The morphological analysis unit 321 analyzes the voice recognition result data text received by the voice recognition result data text / voice data receiving unit 311. What is morphological analysis? From text data in natural language without notes of grammatical information, based on information such as the grammar of the target language and the part of speech of words called dictionaries, it is divided into columns of morphemes, and the part of speech of each morpheme, etc. It means to discriminate. The text obtained by morphological analysis is divided into columns for each morpheme, and block display control is performed for each morpheme by the display control unit 322 described later.

表示制御部322は、形態素解析部321で解析したテキストをブロック表示制御を行なって、図1に示す情報処理装置5へ表示の指示を行う。また情報処理装置5からスワイプアクションや、修正内容にしたがって指示を受けた内容の表示制御を行ない、情報処理装置5へ表示の指示を行う。 The display control unit 322 controls the block display of the text analyzed by the morphological analysis unit 321 and instructs the information processing apparatus 5 shown in FIG. 1 to display the text. Further, the swipe action from the information processing apparatus 5 and the display control of the contents instructed according to the correction contents are performed, and the information processing apparatus 5 is instructed to display.

テキスト編集部323は、音声認識結果データテキスト/音声データ受信部311で受信した音声認識結果データテキストを、情報処理装置5からスワイプアクションや、修正内容にしたがって修正を行う。修正されたテキストは表示制御部322に送られ、修正された内容で情報処理装置5へ表示の指示を行う。 The text editing unit 323 corrects the voice recognition result data text / the voice recognition result data text received by the voice data receiving unit 311 according to the swipe action or the correction content from the information processing device 5. The corrected text is sent to the display control unit 322, and the information processing apparatus 5 is instructed to display the corrected text.

修正結果辞書生成部324は、テキスト編集部323で修正した内容を時刻情報と共に記憶部33へ記録可能な形式に生成を行う。例えば、誤った認識結果テキストと、修正後のテキストが時刻情報と共に辞書として記録されることで、同様の誤った認識の防止を支援することができる。 The correction result dictionary generation unit 324 generates the content corrected by the text editing unit 323 in a format that can be recorded in the storage unit 33 together with the time information. For example, by recording the erroneous recognition result text and the corrected text together with the time information as a dictionary, it is possible to support the prevention of the same erroneous recognition.

放送用テキスト出力部325は、テキスト編集部323で修正を行なったテキスト、またはテキスト編集部323で修正を行わなかったテキストを、放送用テキストとして、情報処理装置5から指示で放送用テキストを出力する。 The broadcast text output unit 325 outputs the broadcast text as an instruction from the information processing apparatus 5 as the text corrected by the text editing unit 323 or the text not corrected by the text editing unit 323 as the broadcasting text. do.

記憶部33は、音声認識結果データテキスト/音声データ受信部311で受信した受信テキストログRTLと、放送用テキストデータ送信部312から送信した送信テキストログSTLと、修正結果辞書生成部324で生成された修正結果である辞書データMDDと、を記録し、保存されている。 The storage unit 33 is generated by the voice recognition result data text / voice data reception unit 311 received text log RTL, the broadcast text data transmission unit 312 transmitted text log STL, and the correction result dictionary generation unit 324. The dictionary data MDD, which is the correction result, is recorded and saved.

記憶部33は、音声認識結果データテキスト/音声データ受信部311で受信した音声データに時刻情報がタグ付けされた、時刻付き音声データATD3が記録されている。例えば、受信テキストログRTLと、送信テキストログSTLと、ATD3を送信部(不図示)から情報処理装置5に送信することによって、情報処理装置5で音声認識エンジンが認識しやすい音声を、発声した本人が確認をすることが可能となる。 The storage unit 33 records the timed voice data ATD3 in which the time information is tagged with the voice data received by the voice recognition result data text / voice data receiving unit 311. For example, by transmitting the received text log RTL, the transmitted text log STL, and the ATD 3 from the transmitting unit (not shown) to the information processing device 5, the information processing device 5 utters a voice that is easily recognized by the voice recognition engine. The person can confirm it.

図4は、本発明の実施形態に係る形態素解析処理サーバ4の一例を示す概略構成図(ブロック図)である。図4に示すように、形態素解析処理サーバ4は、例示的に、各種データ及び各種情報を送受信する送受信部41と、テキストデータ群の解析、及び生成を制御するための各種処理を実行する情報処理部42と、各種情報及び各種データを記録する記憶部43と、を備えて構成される。なお、情報処理部42は、例えば、不図示であるが、記憶部43に格納されているプログラムをCPU等が実行したりすることにより実現することができる。 FIG. 4 is a schematic configuration diagram (block diagram) showing an example of the morphological analysis processing server 4 according to the embodiment of the present invention. As shown in FIG. 4, the morpheme analysis processing server 4 is exemplified by an information processing unit 41 for transmitting and receiving various data and various information, and information for executing various processing for controlling analysis and generation of a text data group. It is configured to include a processing unit 42 and a storage unit 43 for recording various information and various data. Although not shown, the information processing unit 42 can be realized by the CPU or the like executing a program stored in the storage unit 43, for example.

送受信部41は機能的に、外部テキスト受信部411と、辞書データ送信部412と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。 The transmission / reception unit 41 is functionally configured to include an external text reception unit 411 and a dictionary data transmission unit 412. It also includes a transmitting unit (not shown) for transmitting various data and various information, and a receiving unit (not shown) for receiving various data and various information.

外部テキスト受信部411は、外部システム、もしくは形態素解析処理サーバ4内の記憶部43に記録されているテキストを受信する。例えば、前記テキストはインターネット上でSNS(Social Networking Service)等から収集し受信したテキスト、もしくはLAN内でニュース原稿システムといった他システム等から収集し、受信したものでもよい。 The external text receiving unit 411 receives the text recorded in the external system or the storage unit 43 in the morphological analysis processing server 4. For example, the text may be a text collected and received from an SNS (Social Networking Service) or the like on the Internet, or a text collected and received from another system such as a news manuscript system in a LAN.

辞書データ送信部412は、情報処理部42で生成した辞書データを図1に示す音声認識処理サーバ2へ送信する。例えば、前記辞書データはSNS、及び内部システムから取り込んだ比較的新しい辞書であると、ニュース番組等の音声認識率が上がると期待できる。 The dictionary data transmission unit 412 transmits the dictionary data generated by the information processing unit 42 to the voice recognition processing server 2 shown in FIG. For example, if the dictionary data is a relatively new dictionary imported from SNS and an internal system, it can be expected that the voice recognition rate of news programs and the like will increase.

情報処理部42は機能的に、形態素解析部421と、読みデータ生成部422と、辞書生成部423と、出現スコア計算部424と、を含んで構成されている。 The information processing unit 42 is functionally composed of a morphological analysis unit 421, a reading data generation unit 422, a dictionary generation unit 423, and an appearance score calculation unit 424.

形態素解析部421は、外部テキスト受信部411で受信したテキストを形態素解析する。形態素解析とは文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。形態素解析を行った前記テキストは形態素毎の列に分割され、記憶部43に記録、保存をする。 The morphological analysis unit 421 analyzes the text received by the external text reception unit 411. What is morphological analysis? From text data in natural language without notes of grammatical information, based on information such as the grammar of the target language and the part of speech of words called dictionaries, it is divided into columns of morphemes, and the part of speech of each morpheme, etc. It means to discriminate. The text subjected to morphological analysis is divided into columns for each morpheme, and is recorded and stored in the storage unit 43.

読みデータ生成部422は、形態素解析部421で形態素毎の列に分割されたテキストにルビと呼ばれる読み仮名を関連づける。例えば、記憶部43に記録されている読み組み合わせツール432などを利用してルビを検索し、該当するルビを形態素解析部421で形態素毎の列に分割されたテキストにタグ付け等をして、記憶部43に記録、保存をする。 The reading data generation unit 422 associates a reading kana called ruby with the text divided into columns for each morpheme by the morphological analysis unit 421. For example, the ruby is searched by using the reading combination tool 432 recorded in the storage unit 43, and the corresponding ruby is tagged in the text divided into columns for each morpheme by the morphological analysis unit 421. It is recorded and stored in the storage unit 43.

辞書生成部423は、読みデータ生成部422でタグ付けされたテキストを、図1に示す音声認識処理サーバ2へ送信した際に辞書として登録できる形式に整形、生成をする。例えば、形態素解析部421にて品詞毎に分割されたテキストと、読みデータ生成部422でタグ付け等をされた読み仮名を図1に示す音声認識処理サーバ2が読み込み可能な辞書形式にデータベース化等を行う。 The dictionary generation unit 423 shapes and generates the text tagged by the reading data generation unit 422 into a format that can be registered as a dictionary when transmitted to the voice recognition processing server 2 shown in FIG. For example, the text divided for each part of speech by the morphological analysis unit 421 and the reading pseudonym tagged by the reading data generation unit 422 are stored in a database in a dictionary format that can be read by the speech recognition processing server 2 shown in FIG. And so on.

出現スコア計算部424は、形態素解析部421で形態素毎の列に分割されたテキストがどの頻度で出現し、分割されたテキストごとにその出現率を付与し、定量評価する出現スコアを計算する。出現スコアの計算例は後述する。 The appearance score calculation unit 424 calculates the appearance score for quantitative evaluation by giving the appearance rate to each divided text at what frequency the text divided into columns for each morpheme appears in the morphological analysis unit 421. An example of calculating the appearance score will be described later.

記憶部43は、外部テキスト受信部411で受信したテキストを形態素解析部421にて形態素解析をする際に使用する形態素解析ツールMDTと、前記形態素解析を行ったテキストの読み仮名を定義する際に使用する読み合わせツールRBTと、を記録し、保存されている。 The storage unit 43 defines a morphological analysis tool MDT used when the text received by the external text receiving unit 411 is morphologically analyzed by the morphological analysis unit 421, and a reading pseudonym of the text for which the morphological analysis is performed. The reading tool RBT to be used and is recorded and saved.

記憶部43は、外部テキスト受信部411で受信した外部テキストデータODTと、形態素解析部421にて品詞毎に分割されたテキストと、読みデータ生成部422でタグ付け等をされた読み仮名を図1に示す音声認識処理サーバ2が読み込み可能な辞書形式にデータベース化等を行った辞書生成データDMDと、を記録し、保存されている。 The storage unit 43 illustrates the external text data ODT received by the external text receiving unit 411, the text divided for each part of speech by the morphological analysis unit 421, and the reading pseudonym tagged by the reading data generation unit 422. The dictionary generation data DMD, which has been made into a database in a dictionary format that can be read by the voice recognition processing server 2 shown in 1, is recorded and stored.

図5は、本発明の実施形態に係る情報処理装置5の一例を示す概略構成図(ブロック図)である。図5に示すように、情報処理装置5は、例示的に、各種情報を送受信する送受信部51と、モニタ等に表示を行う表示部52、各種制御するための各種処理を実行する情報処理部53と、プログラムを記録する記憶部54と、を備えて構成される。情報処理装置5は、汎用のコンピュータ装置であるため、送受信部51と、モニタ等に表示を行う表示部52に特徴は必要なく、一般の汎用のコンピュータ装置と同等のものである。表示部52は内蔵されるタッチパネルでもよいし、外部モニタに出力する出力ポートでも良い。 FIG. 5 is a schematic configuration diagram (block diagram) showing an example of the information processing apparatus 5 according to the embodiment of the present invention. As shown in FIG. 5, the information processing apparatus 5 is exemplified by a transmission / reception unit 51 for transmitting / receiving various information, a display unit 52 for displaying on a monitor or the like, and an information processing unit for executing various processes for various control. A storage unit 54 for recording a program and a storage unit 54 are provided. Since the information processing device 5 is a general-purpose computer device, the transmission / reception unit 51 and the display unit 52 that displays on a monitor or the like do not need to be characterized, and are equivalent to a general-purpose computer device. The display unit 52 may be a built-in touch panel or an output port for outputting to an external monitor.

情報処理部53は機能的に、表示制御部531と、テキスト編集部532と、を含んで構成されている。 The information processing unit 53 is functionally configured to include a display control unit 531 and a text editing unit 532.

表示制御部531は、音声認識テキストデータ出力制御サーバ3等で形態素解析された形態素ごとのテキストを後述するブロック表示にしたり、スワイプアクションにあわせてブロックを移動させたり、修正エリア52dを表示するよう、表示部52の制御をおこなう。なお、ブロックの移動はブロック操作に好奇心が湧くようにアニメーション表示制御をしてもよい。 The display control unit 531 displays the text for each morpheme analyzed by the voice recognition text data output control server 3 or the like as a block display described later, moves the block according to the swipe action, and displays the correction area 52d. , Controls the display unit 52. The movement of the block may be controlled by animation display so that the block operation is curious.

テキスト編集部532は、表示制御部531の表示、操作に合わせてブロック内のテキストの編集を行う。たとえばブロックを下スワイプアクションした際にはテキストの後ろに改行コードを挿入したり、ブロックを上スワイプアクションした際にはブロック内テキストを削除したり、ブロックを左横スワイプアクションをした際には、選択した句読点や区切記号などを挿入したり、ブロックをタップアクションした際には表示制御部531によって表示指示された表示部52に表示されている修正エリア52dのテキストとブロック内のテキストを差し替えたりして、テキストの編集を行っていく。 The text editing unit 532 edits the text in the block according to the display and operation of the display control unit 531. For example, when you swipe down on a block, you insert a line feed code after the text, when you swipe up on a block, you delete the text inside the block, or when you swipe up on a block, you swipe left. Insert selected punctuation marks, delimiters, etc., or replace the text in the correction area 52d displayed on the display unit 52 instructed by the display control unit 531 with the text in the block when the block is tapped. Then, edit the text.

記憶部54は、汎用のコンピュータブラウザなどのアプリケーションや各種プログラムが保存されている。 The storage unit 54 stores applications such as a general-purpose computer browser and various programs.

図6は、本発明の実施形態に係る映像・音声再生装置6の一例を示す概略構成図(ブロック図)である。図6に示すように、映像・音声再生装置6は、例示的に、映像・音声データ及び各種情報を送受信する送受信部61と、映像・音声の収録、再生制御するための各種処理を実行する情報処理部62と、収録した映像・音声データ及び設定データを記録する記憶部63と、を備えて構成される。なお、情報処理部62は、例えば、不図示であるが、記憶部63に格納されているプログラムをCPU等が実行したりすることにより実現することができる。 FIG. 6 is a schematic configuration diagram (block diagram) showing an example of the video / audio reproduction device 6 according to the embodiment of the present invention. As shown in FIG. 6, the video / audio reproduction device 6 exemplifies, for example, a transmission / reception unit 61 for transmitting / receiving video / audio data and various information, and various processes for recording and controlling reproduction of the video / audio. It includes an information processing unit 62 and a storage unit 63 for recording recorded video / audio data and setting data. Although not shown, the information processing unit 62 can be realized by the CPU or the like executing a program stored in the storage unit 63, for example.

送受信部61は機能的に、映像音声データ受信部611と、映像音声データ再生部612と、外部制御受信部613と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。 The transmission / reception unit 61 is functionally configured to include a video / audio data reception unit 611, a video / audio data reproduction unit 612, and an external control reception unit 613. It also includes a transmitting unit (not shown) for transmitting various data and various information, and a receiving unit (not shown) for receiving various data and various information.

映像音声データ受信部611は、情報処理システム100を利用して字幕放送を行う映像音声データを受信する。この映像音声データの音声データを使って情報処理システム100は音声認識処理を行うが、この映像音声データもオペレータが修正するときに必要なモニタに利用するデータである。 The video / audio data receiving unit 611 receives the video / audio data for subtitle broadcasting using the information processing system 100. The information processing system 100 performs voice recognition processing using the voice data of the video / voice data, and this video / voice data is also data used for the monitor necessary for the operator to correct.

映像音声データ再生部612は、映像モニタ、スピーカーなどに接続し、映像音声データを再生する。音声認識テキストデータ出力制御サーバ3の音声認識結果データテキスト/音声データ受信部311で受信した音声認識結果データテキストを、テキスト編集部323で情報処理装置5からスワイプアクションや、修正内容にしたがって修正を行う際に、修正箇所を確認するために参考とする映像・音声を再生するものである。 The video / audio data reproduction unit 612 is connected to a video monitor, a speaker, or the like to reproduce video / audio data. Voice recognition text data output The voice recognition result data text received by the voice recognition result data text / voice data receiving unit 311 of the control server 3 is corrected by the text editing unit 323 from the information processing device 5 by swiping action or according to the correction content. When doing so, the video / audio that is used as a reference for confirming the corrected part is reproduced.

外部制御受信部613は、映像音声データ再生部612で映像音声データを再生する際に、再生スピードや再生モード(動画や静止画)をコントローする信号を受信する。音声認識テキストデータ出力制御サーバ3の音声認識結果データテキスト/音声データ受信部311で受信した音声認識結果データテキストを、テキスト編集部323で情報処理装置5からスワイプアクションや、修正内容にしたがって修正を行う際に、修正に合わせた制御信号が出力されて、修正箇所を確認するために参考とする映像・音声の再生スピード等を制御するものである。 When the video / audio data reproduction unit 612 reproduces the video / audio data, the external control reception unit 613 receives a signal that controls the reproduction speed and the reproduction mode (moving image or still image). Voice recognition text data output The voice recognition result data text received by the voice recognition result data text / voice data receiving unit 311 of the control server 3 is corrected by the text editing unit 323 from the information processing device 5 by swiping action or according to the correction content. At the time of this, a control signal corresponding to the correction is output, and the reproduction speed of the video / audio used as a reference for confirming the correction portion is controlled.

情報処理部62は機能的に、収録制御部621と、音声再生部622と、画像再生部623と、スロー再生指示部624と、倍速再生指示部625と、を含んで構成されている。 The information processing unit 62 functionally includes a recording control unit 621, an audio reproduction unit 622, an image reproduction unit 623, a slow reproduction instruction unit 624, and a double speed reproduction instruction unit 625.

収録制御部621は、映像音声データ受信部611で受信した字幕放送を行う映像音声データ収録するコントロールを行う。例えば、情報処理システム100が稼働した際に自動で入力された映像音声データの収録を開始したり、情報処理システム100が終了した際に、収録を終了させるコントロールを収録制御部621から行う。 The recording control unit 621 controls to record the video / audio data for broadcasting the subtitles received by the video / audio data receiving unit 611. For example, the recording control unit 621 controls to start recording of video / audio data automatically input when the information processing system 100 operates, or to end recording when the information processing system 100 ends.

音声再生部622は、映像音声データ受信部611で受信した字幕放送を行う映像音声データの音声部分のみを再生をコントロールする。例えば、音声認識テキストデータ出力制御サーバ3の音声認識結果データテキスト/音声データ受信部311で受信した音声認識結果データテキストを、テキスト編集部323で情報処理装置5からスワイプアクションや、修正内容にしたがって修正する際、音声を聞き直したい場合に、外部制御受信部613から受信した聞き直しの制御信号がタイムコードとともに送られ、音声再生部622は指定されたタイムコードから音声の再生を行う。 The audio reproduction unit 622 controls reproduction of only the audio portion of the video / audio data for broadcasting the subtitles received by the video / audio data reception unit 611. For example, the voice recognition result data text / voice data receiving unit 311 of the voice recognition text data output control server 3 receives the voice recognition result data text from the information processing device 5 in the text editing unit 323 according to the swipe action or the correction content. At the time of correction, when it is desired to re-listen to the voice, the re-listening control signal received from the external control receiving unit 613 is sent together with the time code, and the voice reproducing unit 622 reproduces the voice from the designated time code.

画像再生部623は、映像音声データ受信部611で受信した字幕放送を行う映像音声データの映像を静止画として取り出した部分のみを再生をコントロールする。例えば、音声認識テキストデータ出力制御サーバ3の音声認識結果データテキスト/音声データ受信部311で受信した音声認識結果データテキストを、テキスト編集部323で情報処理装置5からスワイプアクションや、修正内容にしたがって修正する際、音声を聞き直したい場合に、外部制御受信部613から受信した聞き直しの制御信号がタイムコードとともに送られ、音声再生部622は指定されたタイムコードから映像部分の画像再生を行う。 The image reproduction unit 623 controls reproduction of only a portion of the video / audio data video to be broadcast subtitles received by the video / audio data reception unit 611 as a still image. For example, the voice recognition result data text / voice data receiving unit 311 of the voice recognition text data output control server 3 receives the voice recognition result data text from the information processing device 5 in the text editing unit 323 according to the swipe action or the correction content. When making corrections, when it is desired to re-listen to the audio, the re-listening control signal received from the external control receiving unit 613 is sent together with the time code, and the audio reproducing unit 622 reproduces the image of the video portion from the specified time code. ..

スロー再生指示部624は、映像音声データ受信部611で受信した字幕放送を行う映像音声データの再生をコントロールする。例えば、音声認識テキストデータ出力制御サーバ3の音声認識結果データテキスト/音声データ受信部311で受信した音声認識結果データテキストを、テキスト編集部323で情報処理装置5からスワイプアクションや、修正内容にしたがって修正する際、映像音声再生している場面が修正箇所よりも先にいかないように、映像音声データ再生部612に対し、スロー再生指示を行う。 The slow playback instruction unit 624 controls the reproduction of the video / audio data for subtitle broadcasting received by the video / audio data receiving unit 611. For example, the voice recognition result data text / voice data receiving unit 311 of the voice recognition text data output control server 3 receives the voice recognition result data text from the information processing device 5 in the text editing unit 323 according to the swipe action or the correction content. When making corrections, a slow playback instruction is given to the video / audio data reproduction unit 612 so that the scene in which the video / audio is being reproduced does not come before the corrected portion.

倍速再生指示部625は、映像音声データ受信部611で受信した字幕放送を行う映像音声データの再生をコントロールする。例えば、音声認識テキストデータ出力制御サーバ3の音声認識結果データテキスト/音声データ受信部311で受信した音声認識結果データテキストを、テキスト編集部323で情報処理装置5からスワイプアクションや、修正内容にしたがって修正を行った後で、映像音声再生している場面が確認箇所から遅れている場合は、映像音声データ再生部612に対し、倍速再生指示を行う。倍速再生指示は2倍という意味ではなく、1.2倍、1.3倍といったn倍速を表す。 The double-speed reproduction instruction unit 625 controls the reproduction of the video / audio data for subtitle broadcasting received by the video / audio data receiving unit 611. For example, the voice recognition result data text / voice data receiving unit 311 of the voice recognition text data output control server 3 receives the voice recognition result data text from the information processing device 5 in the text editing unit 323 according to the swipe action or the correction content. If the scene in which the video / audio is being reproduced is delayed from the confirmation point after the correction is made, the video / audio data reproduction unit 612 is instructed to reproduce at double speed. The double speed reproduction instruction does not mean 2 times, but indicates n times speed such as 1.2 times and 1.3 times.

記憶部63は、映像音声データ受信部611で受信した映像・音声データVADと、再生コントロール設定値等のデータSUDと、を記録し、保存されている。 The storage unit 63 records and stores the video / audio data VAD received by the video / audio data receiving unit 611 and the data SUD such as the playback control set value.

<辞書生成処理例1>
図7、図8、及び図9を参照して、辞書生成処理、もしくは出力制御処理としての、テキストデータの出力及び音声データの制御処理を実施例1として説明する。図6は、本発明の実施形態に係るデータ辞書生成処理の一例を示すフローチャートである。
<Dictionary generation processing example 1>
With reference to FIGS. 7, 8 and 9, the output of text data and the control process of voice data as the dictionary generation process or the output control process will be described as Example 1. FIG. 6 is a flowchart showing an example of the data dictionary generation process according to the embodiment of the present invention.

(ステップS1)
形態素解析処理サーバ4は、外部システム、もしくは形態素解析処理サーバ4内の図4に示す記憶部43に記録されているテキストを受信する。例えば、前記テキストはインターネット上でSNS(Social Networking Service)等から収集し受信したテキスト、もしくはLAN内でニュース原稿システムといった他システム等から収集し受信したものでもよい。
(Step S1)
The morphological analysis processing server 4 receives the text recorded in the external system or the storage unit 43 shown in FIG. 4 in the morphological analysis processing server 4. For example, the text may be a text collected and received from an SNS (Social Networking Service) or the like on the Internet, or a text collected and received from another system such as a news manuscript system in a LAN.

(ステップS2)
形態素解析処理サーバ4は、前記受信したテキストを形態素解析する。形態素解析とは前記同様の解析を意味し、文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。
(Step S2)
The morphological analysis processing server 4 analyzes the received text for morphological analysis. Morpheme analysis means the same analysis as described above, and divides text data in natural language without notes of grammatical information into columns of morphemes based on information such as the grammar of the target language and the part of speech of words called dictionaries. However, it means to discriminate the part of speech of each morpheme.

(ステップS3)
図4に示す形態素解析部421で形態素毎の列に分割されたテキスト(以下辞書単語)にルビと呼ばれる読み仮名を関連づける。例えば、図4に示す記憶部43に記録されている読み合わせツールRBTなどを利用してルビを検索し、該当するルビを形態素解析部421で形態素毎の列に分割された辞書単語にタグ付け等をして、記憶部43に記録、保存をする。もしく前記受信テキストにルビを振るルールが定義されていれば、それを基にルビを振ってもよい。
(Step S3)
The morphological analysis unit 421 shown in FIG. 4 associates a reading kana called ruby with a text (hereinafter referred to as a dictionary word) divided into columns for each morpheme. For example, a ruby is searched for by using a read-through tool RBT or the like recorded in the storage unit 43 shown in FIG. 4, and the corresponding ruby is tagged in a dictionary word divided into columns for each morpheme by the morphological analysis unit 421. And record and save in the storage unit 43. If a rule for adding ruby is defined in the received text, ruby may be added based on the rule.

(ステップS4)
図4に示す出現スコア計算部424で辞書単語の出現率を定量評価する出現スコアを計算する。図8を参照して出現スコアの計算方法を説明する。TLは時刻の流れを表す軸タイムラインであり、どのタイミングでそのテキストが取り込まれたかをタイムライン上で表している。またこの出現スコアを作成する開始タイミングをAStとし、このAStの数値を変更しながら音声認識の制度を高めていく。tpが現在時刻を表し、時刻を数値化した場合、t1<t8<tpという関係が成り立つ。このような条件とした場合、たとえば以下のような式で出現スコアを定義しても良い。
(出現スコア式)

Figure 0007087041000001
現在時刻から離れた時間ほど、tp-tkは大きな値となり、その逆数は小さくなる。この数値の総和の対数を取ることにより、出現スコアは多く出現すれば大きくなり、時刻が過ぎればすぎるほど小さくなる数値となる。
例えば「国会会期末」といったテキストがt1のタイミングでW1として、t2のタイミングでW2として、t4のタイミングでw3として、t6のタイミングでW6として、t8のタイミングでW8として出現していた場合、計算式はCS内のような式が成り立つ。「労働災害」「原辰徳」といったワードも同様である。出現回数も多く、現在時刻直近で出現した「国会会期末」の出現スコアAS1と、「労働災害」の出現スコアAS2は通常AS1>AS2といった関係になるが、「原辰徳」の出現スコアAS3と前記AS2の関係は双方の出現時間によって関係が変わってくる。前記出現スコアは定量評価値として、音声認識処理の際に認識結果確率の増減に利用する。 (Step S4)
The appearance score calculation unit 424 shown in FIG. 4 calculates the appearance score for quantitatively evaluating the appearance rate of the dictionary word. A method of calculating the appearance score will be described with reference to FIG. TL is an axis timeline showing the flow of time, and shows on the timeline at what timing the text was captured. In addition, the start timing for creating this appearance score is set to ASt, and the voice recognition system is enhanced while changing the value of this Ast. When tp represents the current time and the time is quantified, the relationship t1 <t8 <tp is established. Under such conditions, the appearance score may be defined by the following formula, for example.
(Appearance score formula)
Figure 0007087041000001
The farther away from the current time, the larger the value of tp-tk, and the smaller the reciprocal. By taking the logarithm of the sum of these numerical values, the appearance score becomes larger as the number of appearances increases, and becomes smaller as the time passes.
For example, if the text such as "End of Diet" appears as W1 at the timing of t1, W2 at the timing of t2, w3 at the timing of t4, W6 at the timing of t6, and W8 at the timing of t8, it is calculated. The formula is as in CS. The same applies to words such as "work accident" and "Tatsunori Hara". The number of appearances is large, and the appearance score AS1 of "the end of the Diet" that appeared most recently at the current time and the appearance score AS2 of "work accident" usually have a relationship of AS1> AS2, but with the appearance score AS3 of "Tatsunori Hara". The relationship between AS2 changes depending on the appearance time of both. The appearance score is used as a quantitative evaluation value to increase or decrease the recognition result probability in the speech recognition process.

(ステップS5a)
情報処理装置5は形態素解析処理サーバ4に対し、辞書単語表示の要求を行う。
(Step S5a)
The information processing apparatus 5 requests the morphological analysis processing server 4 to display dictionary words.

(ステップS5b)
辞書単語表示の要求に対し、形態素解析処理サーバ4は前記形態素毎の列に分割されたルビに当たる辞書単語にタグ付け等された辞書を情報処理装置5に送信して辞書の表示をする。図9は情報処理装置5に表示される画面の一例を示す図である。図9を参照しながら、図1に示す情報処理装置5の表示部52に表示される、辞書登録画面について説明する。辞書登録表示画面は、例えば入力された原稿テキストの放送番組名501が放送時間と共に表示される。どの辞書単語群、もしくは辞書単語を登録するか、選択ボタン502、503が用意されている。表には形態素解析によって、分割された辞書単語となるテキスト504、それに対する読み表示505、その元となるテキストが登録された時間506などが表示されている。なお、出現スコアはここに表記しなくてもよいし、してもよい。
(Step S5b)
In response to the request for displaying the dictionary word, the morphological analysis processing server 4 transmits a dictionary tagged or the like to the dictionary word corresponding to the ruby divided into columns for each morpheme to the information processing device 5 to display the dictionary. FIG. 9 is a diagram showing an example of a screen displayed on the information processing apparatus 5. The dictionary registration screen displayed on the display unit 52 of the information processing apparatus 5 shown in FIG. 1 will be described with reference to FIG. On the dictionary registration display screen, for example, the broadcast program name 501 of the input manuscript text is displayed together with the broadcast time. Selection buttons 502 and 503 are provided for which dictionary word group or dictionary word to be registered. In the table, the text 504 which is the divided dictionary word by the morphological analysis, the reading display 505 for the divided dictionary word, the time 506 when the original text is registered, and the like are displayed. The appearance score may or may not be shown here.

(ステップS6)
登録される放送番組名501、もしくは辞書単語となるテキスト504をボタン502、もしくは503を選択した後、辞書登録ボタン507を押下する。押下後は図7に戻り、選択された辞書単語を外部に送信する処理の準備を行う。また、図8に示した出現スコアAStは出現スコア作成タイミング表示エリア508に表示され、手動で変更することができる。
(Step S6)
After selecting the button 502 or 503 for the broadcast program name 501 to be registered or the text 504 to be a dictionary word, the dictionary registration button 507 is pressed. After pressing, the process returns to FIG. 7 to prepare for the process of transmitting the selected dictionary word to the outside. Further, the appearance score ASt shown in FIG. 8 is displayed in the appearance score creation timing display area 508 and can be manually changed.

(ステップS7)
情報処理装置5上で選択された辞書単語送信処理により、形態素解析処理サーバ4に辞書単語群の送信指示が送信される。辞書単語群は辞書単語の選択はカテゴリ毎に送信されてもよいし、受信した時間毎に単語群毎に送信してもよい。
(Step S7)
By the dictionary word transmission process selected on the information processing apparatus 5, the transmission instruction of the dictionary word group is transmitted to the morphological analysis processing server 4. As for the dictionary word group, the selection of the dictionary word may be transmitted for each category, or may be transmitted for each word group for each received time.

(ステップS8)
送信指示を受けた形態素解析処理サーバ4は図4の辞書生成部423を使って、読みデータ生成部422でタグ付けされたテキストを、音声認識処理サーバ2へ送信した際に辞書として登録できる形式に整形、生成をする変換処理を行う。
(Step S8)
The morphological analysis processing server 4 that has received the transmission instruction can use the dictionary generation unit 423 of FIG. 4 to register the text tagged by the reading data generation unit 422 as a dictionary when it is transmitted to the voice recognition processing server 2. Performs conversion processing to format and generate.

(ステップS9a)
前記ステップで変換処理をした辞書単語群は音声認識処理サーバ2へ送信する。
(Step S9a)
The dictionary word group converted in the above step is transmitted to the speech recognition processing server 2.

(ステップS9b)
ステップS9aと同様に変換処理をした辞書単語群は音声認識テキストデータ出力制御サーバ3へ送信する。
(Step S9b)
The dictionary word group that has been converted in the same manner as in step S9a is transmitted to the voice recognition text data output control server 3.

(ステップS10a)
辞書単語群を受信した音声認識処理サーバ2は、この辞書を利用して音声認識処理を行う。音声認識処理は後述するステップS23と同様である。
(Step S10a)
The voice recognition processing server 2 that has received the dictionary word group performs voice recognition processing using this dictionary. The voice recognition process is the same as step S23 described later.

(ステップS10b)
辞書単語群を受信した音声認識テキストデータ出力制御サーバ3は、この辞書を利用してテキスト修正処理を行う。テキスト修正処理は後述するステップS28と同様である。
(Step S10b)
The voice recognition text data output control server 3 that has received the dictionary word group performs text correction processing using this dictionary. The text correction process is the same as step S28 described later.

<辞書生成処理例2>
次に図10を参照して、辞書生成処理、もしくは出力制御処理としての、テキストデータの出力及び音声データの制御処理を実施例2として説明する。図9は、本発明の実施形態に係るデータ辞書生成処理の一例を示すフローチャートである。
<Dictionary generation processing example 2>
Next, with reference to FIG. 10, the output of text data and the control process of voice data as the dictionary generation process or the output control process will be described as Example 2. FIG. 9 is a flowchart showing an example of the data dictionary generation process according to the embodiment of the present invention.

(ステップS11)から(ステップS14)
上記ステップは図7のステップS1からステップS4のステップと同様である。
(Step S11) to (Step S14)
The above steps are the same as the steps from step S1 to step S4 in FIG.

(ステップS15)
形態素解析処理サーバ4は自動で辞書単語登録を行う辞書単語を選択する。自動選択の選択基準はステップS19で後述する。
(Step S15)
The morphological analysis processing server 4 automatically selects a dictionary word for which dictionary words are registered. The selection criteria for automatic selection will be described later in step S19.

(ステップS16)
自動で辞書単語を選択した形態素解析処理サーバ4は図4の辞書生成部423を使って、読みデータ生成部422でタグ付けされたテキストを、音声認識処理サーバ2へ送信した際に辞書として登録できる形式に整形、生成をする変換処理を行う。
(Step S16)
The morphological analysis processing server 4 that automatically selects a dictionary word uses the dictionary generation unit 423 of FIG. 4 to register the text tagged by the reading data generation unit 422 as a dictionary when it is transmitted to the voice recognition processing server 2. Performs conversion processing to format and generate in a format that can be used.

(ステップS17)
前記ステップで変換処理をした辞書単語群は音声認識処理サーバ2へ送信する。
(Step S17)
The dictionary word group converted in the above step is transmitted to the speech recognition processing server 2.

(ステップS18)
辞書単語群を受信した音声認識処理サーバ2は、この辞書を利用して音声認識処理を行う。音声認識処理は後述するステップS23と同様である。
(Step S18)
The voice recognition processing server 2 that has received the dictionary word group performs voice recognition processing using this dictionary. The voice recognition process is the same as step S23 described later.

(ステップS19)
音声認識処理サーバ2は、音声認識テキストデータ出力制御サーバ3から受信した時刻情報付き音声認識確度正答率を形態素解析処理サーバ4に送信をする。音声認識確度正答率とは、音声認識をした際に、音声認識結果であるテキストの他にその認識確率の高さである音声認識確度データを送信するが、音声認識確度と実際の認識正答がどの程度マッチングしていたかを表す確率のことをいう。形態素解析処理サーバ4は自動で選択した辞書と前記音声認識確度正答率を対比しデータベース化等を行う。生成されたデータベースから深層学習を行い、最適値を自動で算出していく仕組みを導入してもよい。具体例に関しては後述する(ステップS32)、(ステップS33)にて説明する。
(Step S19)
The voice recognition processing server 2 transmits the voice recognition accuracy correct answer rate with time information received from the voice recognition text data output control server 3 to the morphological analysis processing server 4. The voice recognition accuracy correct answer rate means that when voice recognition is performed, voice recognition accuracy data, which is the high recognition probability, is transmitted in addition to the text that is the voice recognition result, but the voice recognition accuracy and the actual recognition correct answer are It is the probability of matching to what extent. The morphological analysis processing server 4 compares the automatically selected dictionary with the voice recognition accuracy correct answer rate and creates a database or the like. A mechanism may be introduced in which deep learning is performed from the generated database and the optimum value is automatically calculated. Specific examples will be described later in (Step S32) and (Step S33).

<音声認識テキストデータ出力実施例>
次に図11乃至図17を参照して、音声認識処理、テキスト出力制御処理、及びテキストの修正処理を実施例として説明する。図11は、本発明の実施形態に係る音声認識処理、テキスト出力制御処理、及びテキストの修正処理の一例を示すフローチャートである。
<Speech recognition text data output example>
Next, with reference to FIGS. 11 to 17, voice recognition processing, text output control processing, and text correction processing will be described as examples. FIG. 11 is a flowchart showing an example of voice recognition processing, text output control processing, and text correction processing according to the embodiment of the present invention.

(ステップS21)
リアルタイム音声入力処理装置1は、音声データを受信する。例えば、映像データからDEMUXした音声データであってもよいし、デジタル音声データはもちろん、アナログ音声データでもよい。リアルタイム音声入力処理装置1はリアルタイム音声を処理することを前提としているため、受信方法はストリーム、もしくは連続したアナログ音声を想定している。
(Step S21)
The real-time voice input processing device 1 receives voice data. For example, it may be audio data DEMUXed from video data, or may be analog audio data as well as digital audio data. Since the real-time voice input processing device 1 is premised on processing real-time voice, the receiving method is assumed to be a stream or continuous analog voice.

(ステップS22)
リアルタイム音声入力処理装置1は、前記受信音声データの音声認識精度を上げるための処理を行う。例えば、前記音声データにおける無音区間を特定し、当該区間において音声データを区切る処理や、音声データを分割するルールを作成し、当該ルールに基づいて分割処理を実行してもよい。また、例えば、音声データから人間の声に近い周波数以外の周波数音域を低減させるノイズキャンセルなどの処理を実行してもよい。処理をした際には音声データの受信時刻を処理済み音声データに紐づけるようにタグづけなどの処理をしておく。
(Step S22)
The real-time voice input processing device 1 performs processing for improving the voice recognition accuracy of the received voice data. For example, a silent section in the voice data may be specified, a process for dividing the voice data in the section, or a rule for dividing the voice data may be created, and the division process may be executed based on the rule. Further, for example, processing such as noise cancellation that reduces the frequency range other than the frequency close to the human voice from the voice data may be executed. When processing is performed, processing such as tagging is performed so that the reception time of the voice data is associated with the processed voice data.

(ステップS23)
リアルタイム音声入力処理装置11は、前記処置を行った処置済音声データを、音声認識処理サーバ2へ送信する。
(Step S23)
The real-time voice input processing device 11 transmits the treated voice data to which the treatment has been performed to the voice recognition processing server 2.

(ステップS24)
音声認識処理サーバ2は、前記処理済音声データを受診後、前記処理済音声データを音声認識する。音声認識処理サーバ2は、例えば、未知のパラメータに従って確率的に変化する現象をモデル化する分析技術手法であるHMM(Hidden Markov Model)(隠れマルコフモデル)により、入力された音声データを文字列データに変換する。なお、他の分析技術手法として、DPマッチングやニューラルネットワーク等を採用してもよい。また、ステップS9やS17で受け取った出現スコアを使って、言語モデルの絶えずアップデート行い、辞書単語をその都度増やしたり減らしたりしてもよい。この際、ステップS9、ステップS17の音声認識処理と同様の処理となるが、ステップS9、ステップS17では受信した辞書を利用しての音声認識となるため、音声認識確度の上昇が期待できる。
(Step S24)
The voice recognition processing server 2 receives the processed voice data and then recognizes the processed voice data by voice. The voice recognition processing server 2 uses, for example, character string data of voice data input by HMM (Hidden Markov Model) (Hidden Markov Model), which is an analysis technology method for modeling a phenomenon that changes probabilistically according to an unknown parameter. Convert to. As another analysis technique, DP matching, a neural network, or the like may be adopted. You may also use the appearance scores received in steps S9 and S17 to constantly update the language model and increase or decrease the dictionary words each time. At this time, the processing is the same as the voice recognition processing in steps S9 and S17, but in steps S9 and S17, the voice recognition is performed using the received dictionary, so that the voice recognition accuracy can be expected to increase.

(ステップS25)
音声認識処理サーバ2は、音声認識処理をした後、認識候補テキストそれぞれの音声認識精度の確率の高さを表す、音声認識確度を計算する。その後、音声認識処理サーバ2は前記音声認識結果であるテキスト等を送信する。例えば、送信するテキスト等とは、認識候補テキストと、その区間の音声データ、他に認識候補テキストがあればその認識候補テキスト、それぞれの認識候補テキストの音声認識確度の高さを表す音声認識確度データ等である。
(Step S25)
After performing the voice recognition processing, the voice recognition processing server 2 calculates the voice recognition accuracy, which represents the high probability of the voice recognition accuracy of each recognition candidate text. After that, the voice recognition processing server 2 transmits the text or the like which is the voice recognition result. For example, the text to be transmitted includes the recognition candidate text, the voice data of the section, the recognition candidate text if there is another recognition candidate text, and the voice recognition accuracy indicating the high voice recognition probability of each recognition candidate text. Data etc.

(ステップS26)
音声認識テキストデータ出力制御サーバ3は、受信したテキスト等を同時に、もしくは別ルートで受信した音声データ再生と共に表示できるように、処理を行う。例えば、テキスト修正を行いやすくするために、音声再生よりもテキストを早く表示させる処理を行っておく。
(Step S26)
The voice recognition text data output control server 3 performs processing so that the received text and the like can be displayed at the same time or together with the voice data reproduction received by another route. For example, in order to make it easier to correct the text, a process for displaying the text earlier than the voice reproduction is performed.

(ステップS27)
情報処理装置5の要求を受けた音声認識テキストデータ出力制御サーバ3は、処理を行ったテキスト群と音声データを情報処理装置5に送信を行う。
(Step S27)
The voice recognition text data output control server 3 that receives the request of the information processing device 5 transmits the processed text group and the voice data to the information processing device 5.

(ステップS28)
情報処理装置5は受信した音声認識テキストデータの修正を行う。図12は情報処理装置5に表示されるテキスト修正画面の一例を示す図である。図12を参照しながら、図5に示す情報処理装置5の表示部52に表示される、テキストデータ群を含む画面の一例を説明する。表示部52はタッチパネル画面を前提にタッチパネル操作で説明するが、通常のモニタをマウス操作で行っても良い。音声認識テキストデータ出力制御サーバ3は音声認識結果テキスト/音声データ受信部311で受信した音声認識結果テキストを形態素解析部321で形態素解析を行う。形態素解析とは前記同様の解析を意味し、文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。形態素解析されたテキストは形態素ごとに、情報処理装置5に送られ、表示部52には修正エリア52aの中に511乃至516のようにブロックごとに分けられて表示される。
(Step S28)
The information processing device 5 corrects the received voice recognition text data. FIG. 12 is a diagram showing an example of a text correction screen displayed on the information processing apparatus 5. An example of a screen including a text data group displayed on the display unit 52 of the information processing apparatus 5 shown in FIG. 5 will be described with reference to FIG. The display unit 52 will be described by touch panel operation on the premise of a touch panel screen, but a normal monitor may be performed by mouse operation. The voice recognition text data output control server 3 performs morphological analysis on the voice recognition result text received by the voice recognition result text / voice data receiving unit 311 by the morphological analysis unit 321. Morpheme analysis means the same analysis as described above, and divides text data in natural language without notes of grammatical information into columns of morphemes based on information such as the grammar of the target language and the part of speech of words called dictionaries. However, it means to discriminate the part of speech of each morpheme. The morphologically analyzed text is sent to the information processing apparatus 5 for each morpheme, and is displayed on the display unit 52 in the correction area 52a divided into blocks such as 511 to 516.

修正エリア52aに入らなかった前記音声認識結果テキストは待機エリア52bに表示される。待機エリア52bは前記のようなブロック表示をしても良いし、しなくても良い。修正エリア52aにまだテキストが入る余地がある場合は、図13のようにエリア変更ボタン52cをタッチアクション、もしくは選択することで待機エリア52bの最上段のテキストを修正エリア52aに入れることができる。 The voice recognition result text that did not enter the correction area 52a is displayed in the standby area 52b. The standby area 52b may or may not have the block display as described above. If there is still room for text in the correction area 52a, the text at the top of the standby area 52b can be put in the correction area 52a by touching or selecting the area change button 52c as shown in FIG.

修正エリア52aではブロックを自由に動かすことができる。例えばブロック516「より」を下段に改行したい場合は、図14のようにしたタッチパネル上でブロック516を選択し、下スワイプすることによって改行を行うことが可能となる。 The block can be moved freely in the correction area 52a. For example, if you want to start a new line in the lower row of the block 516 "Yori", you can start a new line by selecting the block 516 on the touch panel as shown in FIG. 14 and swiping down.

また修正エリア52aでブロックをまとめて編集や削除したい場合には、図15のように例えばブロック511を選択して、ブロック511からブロック513まで右スワイプすることにより、新たに結合されたブロック511aが生まれる。これにより、後述するこのブロックをまとめて編集したり、削除をしたりすることが可能となる。 If you want to edit or delete blocks in the correction area 52a all at once, select block 511, for example, and swipe right from block 511 to block 513 as shown in FIG. to be born. This makes it possible to edit or delete these blocks, which will be described later, all at once.

さらに修正エリア52aでブロック間に、テキストを挿入したい場合には、図16のように例えばブロック515を選択して、ブロック515を左スワイプすることにより、ブロック514とブロック515がぶつかったイメージで、間に隙間が生まれ、あらかじめ用意されたテキスト群の1つのテキストを挿入することができる。 If you want to insert text between blocks in the correction area 52a, select block 515, for example, and swipe left on block 515 as shown in FIG. 16 to create an image in which blocks 514 and 515 collide with each other. A gap is created between them, and one of the prepared texts can be inserted.

上記のアクションの他に、テキスト自体を修正したい場合には、図17のように例えばブロック513をシングルタッチすることにより、待機エリア52bが修正エリア52dに変わり、キーボード等で入力することが可能となり、文字自体を修正することができる。 In addition to the above actions, if you want to modify the text itself, for example, by single-touching block 513 as shown in FIG. 17, the standby area 52b changes to the modification area 52d, and it becomes possible to input with a keyboard or the like. , The character itself can be modified.

これらのアクションで正しく修正された音声認識テキストデータは、図12の修正エリア52a内のTAKEボタン517をシングルタップ、もしくはダブルタップ、及び押下することによって確定する。 The voice recognition text data correctly corrected by these actions is confirmed by single-tapping, double-tapping, and pressing the TAKE button 517 in the correction area 52a of FIG.

(ステップS29)
図11に戻り、ステップS28で確定した字幕用テキストは字幕システムで受信可能なフォーマットに変換して、後段の前記字幕システムに送信する。テキストのフォーマットは放送規格ARIBフォーマットB37形式でもよいし、Web配信形式であるWebVtt(Web Video Text Tracks)形式でもよい。
(Step S29)
Returning to FIG. 11, the subtitle text determined in step S28 is converted into a format receivable by the subtitle system and transmitted to the subtitle system in the subsequent stage. The text format may be the broadcasting standard ARIB format B37 format or the Web distribution format WebVtt (Web Video Text Tracks) format.

(ステップS30)
ステップS28で確定した字幕用テキストが修正されていた場合は、選択された認識候補テキストにタグづけされていた音声認識確度データと共に確定した修正テキストを前段の音声認識テキストデータ出力制御サーバ3へ送信する。
(Step S30)
If the subtitle text confirmed in step S28 has been corrected, the corrected text confirmed together with the voice recognition accuracy data tagged with the selected recognition candidate text is transmitted to the voice recognition text data output control server 3 in the previous stage. do.

(ステップS31)
ステップS30で修正テキストを受信した音声認識テキストデータ出力制御サーバ3は音声認識確度正答率を計算する。図18は情報処理装置5に表示される音声認識確度正答率の一例を示す画面の図である。音声認識後に確定させたテキストがcn個とする。最初の確定テキストは「高速道路の」が正答であり、音声認識確度が90%だったとすると、音声認識正答確度CPの数値0.9に正答係数yを乗じ、それ以外のテキストは音声認識誤答確度IPの数値と誤答係数zを乗じ、その総和を計算し、そのテキストの音声認識確度正答率M1とする。同様にM2、M3と計算を実施し、Mkの総和に正答率変数wを乗じて、確定させたテキスト数cnで割ると、音声認識確度正答率が求められる。変数y、z、wはそれぞれ深層学習で適切な数値に変更を加えていってもよい。
(Step S31)
The voice recognition text data output control server 3 that received the corrected text in step S30 calculates the voice recognition accuracy correct answer rate. FIG. 18 is a screen diagram showing an example of the voice recognition accuracy correct answer rate displayed on the information processing apparatus 5. The number of texts confirmed after voice recognition is cn. Assuming that the correct answer for the first confirmed text is "on the highway" and the voice recognition accuracy is 90%, the voice recognition correct answer accuracy CP value 0.9 is multiplied by the correct answer coefficient y, and the other texts are voice recognition errors. Multiply the numerical value of the answer accuracy IP and the wrong answer coefficient z, calculate the total, and use it as the voice recognition accuracy correct answer rate M1 of the text. Similarly, the calculation is performed with M2 and M3, the sum of Mk is multiplied by the correct answer rate variable w, and the correct answer rate is divided by the fixed number of texts cn to obtain the speech recognition accuracy correct answer rate. The variables y, z, and w may be changed to appropriate numerical values by deep learning.

(ステップS32)
図11に戻り説明する。認識候補テキスト、及び修正テキストを受信した音声認識テキストデータ出力制御サーバ3は、辞書化する。例えば、音声認識確度正答率が高いテキストは音声認識確度が高いと判断し辞書化しなくてもよいが、音声認識確度正答率が低いテキストは優先的に辞書化を実施していく。全体の音声認識確度の数値が上がらない場合は、辞書を作成し始めるタイミングに1たる図8に示した出現スコア作成タイミングAStを深層学習によって進めてもよいし、戻してもよい。
(Step S32)
A description will be given by returning to FIG. The voice recognition text data output control server 3 that has received the recognition candidate text and the correction text is converted into a dictionary. For example, a text having a high speech recognition accuracy correct answer rate does not have to be converted into a dictionary because it is judged to have a high speech recognition accuracy, but a text having a low speech recognition accuracy correct answer rate is preferentially converted into a dictionary. If the numerical value of the overall speech recognition accuracy does not increase, the appearance score creation timing ASt shown in FIG. 8, which is one of the timings at which the dictionary creation starts, may be advanced or returned by deep learning.

(ステップS33)
音声認識テキストデータ出力制御サーバ3は、ステップS31で辞書化した辞書データと、計算した音声認識確度正答率を、音声認識プログラムを有する音声認識処理サーバ2へ送信する。
(Step S33)
The voice recognition text data output control server 3 transmits the dictionary data converted into a dictionary in step S31 and the calculated voice recognition accuracy correct answer rate to the voice recognition processing server 2 having a voice recognition program.

(ステップS34)
音声認識処理サーバ2は受信した辞書データと、音声認識確度正答率を音声認識プログラムに組み込み、図2に図示した記憶部23内の辞書データDIDに辞書データを記憶する。例えば、この辞書データ、音声認識確度正答率を基に記憶部23内の言語モデルデータLMDのアップデートを行ってもよい。
(Step S34)
The voice recognition processing server 2 incorporates the received dictionary data and the voice recognition accuracy correct answer rate into the voice recognition program, and stores the dictionary data in the dictionary data DID in the storage unit 23 illustrated in FIG. 2. For example, the language model data LMD in the storage unit 23 may be updated based on the dictionary data and the voice recognition accuracy correct answer rate.

<映像音声モニタ実施例1>
音声認識によって得られたテキストが正しかったかもう一度聴きたい際に、映像音声を確認するためのモニタ環境としての映像・音声再生装置6の動作例について図19を参照しながら説明する。図19は、本発明の映像・音声再生装置6の動作の一例を示すフローチャートである。
<Video / Audio Monitor Example 1>
An operation example of the video / audio reproduction device 6 as a monitor environment for confirming the video / audio when the text obtained by the voice recognition is correct or desired to be listened to again will be described with reference to FIG. FIG. 19 is a flowchart showing an example of the operation of the video / audio reproduction device 6 of the present invention.

(ステップS41)
映像・音声再生装置6は、図6に示す映像音声データ受信部611を使って映像音声を受信する。
(Step S41)
The video / audio reproduction device 6 receives video / audio using the video / audio data receiving unit 611 shown in FIG.

(ステップS42)
映像・音声再生装置6は、図6に示す映像音声データ受信部611で受信したデータの収録制御部621を使って、記憶部63へ映像・音声収録データとして収録を行う。この際、映像音声データは圧縮処理を行っても良いし、しなくても良い。
(Step S42)
The video / audio reproduction device 6 records the video / audio recording data in the storage unit 63 by using the recording control unit 621 of the data received by the video / audio data reception unit 611 shown in FIG. At this time, the video / audio data may or may not be compressed.

(ステップS43)
映像・音声再生装置6は自動再生を行う。この時の再生は遅延再生をしても良いし、しなくても良い。
(Step S43)
The video / audio reproduction device 6 automatically reproduces. The reproduction at this time may or may not be delayed reproduction.

(ステップS44)
情報処理装置5は、音声認識によって得られたテキストが正しかったかどうかを確認する際に、図11に示すブロック521乃至ブロック516をダブルタップアクションする。その際に情報処理装置5はその音声認識テキストのブロックに対応する音声のタイムコードを読み出す。
(Step S44)
The information processing apparatus 5 double-tap actions the blocks 521 to 516 shown in FIG. 11 when confirming whether or not the text obtained by voice recognition is correct. At that time, the information processing apparatus 5 reads out the voice time code corresponding to the block of the voice recognition text.

(ステップS45)
情報処理装置5は、音声認識テキストデータ出力制御サーバ3に対して、ダブルタップされた音声認識テキストのブロックに対応するタイムコード(TC)を付与して、戻し再生指示を伝える。
(Step S45)
The information processing apparatus 5 assigns a time code (TC) corresponding to the block of the double-tapped voice recognition text to the voice recognition text data output control server 3 and conveys a return playback instruction.

(ステップS46)
情報処理装置5から戻し再生指示を受け取った音声認識テキストデータ出力制御サーバ3は、戻し再生モードに切り替える。
(Step S46)
The voice recognition text data output control server 3 that has received the return reproduction instruction from the information processing apparatus 5 switches to the return reproduction mode.

(ステップS47)
音声認識テキストデータ出力制御サーバ3は、映像・音声再生装置6に対して、戻し再生モードを伝えるため、戻し再生指示を出力する。
(Step S47)
The voice recognition text data output control server 3 outputs a return playback instruction to the video / voice playback device 6 in order to convey the return playback mode.

(ステップS48)
音声認識テキストデータ出力制御サーバ3から戻し指示を、図6に記載の外部制御受信部613で受けた映像・音声再生装置6は音声再生部622、画像再生部623から映像音声データ再生部612に戻し再生の指示を出し、映像音声データ再生部612は一旦再生をストップし、対応するタイムコードの映像部分の映像の静止画像を再生するとともに、音声の再生を行う。
(Step S48)
The video / audio reproduction device 6 received the return instruction from the audio recognition text data output control server 3 by the external control receiving unit 613 shown in FIG. 6 is from the audio reproduction unit 622 and the image reproduction unit 623 to the video / audio data reproduction unit 612. The video / audio data playback unit 612 issues a return playback instruction, temporarily stops the playback, reproduces the still image of the video portion of the video portion of the corresponding time code, and reproduces the audio.

(ステップS49)
音声認識テキストデータ出力制御サーバ3は一定時間の再生を終えると、通常再生に追いつくまで倍速再生を行う。倍速再生とは前述したとおり2倍という意味ではなく、1.2倍、1.3倍といったn倍速を表す。
(Step S49)
When the voice recognition text data output control server 3 finishes the reproduction for a certain period of time, the voice recognition text data output control server 3 performs double-speed reproduction until it catches up with the normal reproduction. Double-speed reproduction does not mean 2 times as described above, but means n times speed such as 1.2 times and 1.3 times.

(ステップS50)
映像・音声再生装置6は映像音声データ再生部612で映像・音声の倍速再生処理を行うが、規定のディレイ値に追い付いたかどうかを判断し、追いついていれば映像音声データ再生部612に倍速再生指示はストップし、ステップS43の通常再生に戻す。戻っていなければステップS49のとおり倍速再生を続ける。このステップを続けながら音声認識テキスト修正を行っていき、放送字幕のテキストを作成していく。
(Step S50)
The video / audio playback device 6 performs video / audio double-speed playback processing on the video / audio data playback unit 612, determines whether or not the specified delay value has been caught, and if it has caught up, double-speed playback on the video / audio data playback unit 612. The instruction is stopped, and the normal playback in step S43 is returned to. If it has not returned, double-speed playback is continued as in step S49. While continuing this step, we will correct the voice recognition text and create the text of the broadcast subtitles.

<映像音声モニタ実施例2>
音声認識によって得られたテキストを修正する際(ステップS28)に、映像音声を確認するためのモニタ環境としての映像・音声再生装置6の動作例について図20を参照しながら説明する。図20は、本発明の映像・音声再生装置の動作の一例を示すフローチャートである。
<Video / Audio Monitor Example 2>
An operation example of the video / audio reproduction device 6 as a monitor environment for confirming the video / audio when the text obtained by the voice recognition is corrected (step S28) will be described with reference to FIG. FIG. 20 is a flowchart showing an example of the operation of the video / audio reproduction device of the present invention.

(ステップS51)
映像・音声再生装置6は、図6に示す映像音声データ受信部611を使って映像音声を受信する。
(Step S51)
The video / audio reproduction device 6 receives video / audio using the video / audio data receiving unit 611 shown in FIG.

(ステップS52)
映像・音声再生装置6は、図6に示す映像音声データ受信部611で受信したデータの収録制御部621を使って、記憶部63へ映像・音声収録データとして収録を行う。この際、映像音声データは圧縮処理を行っても良いし、しなくても良い。
(Step S52)
The video / audio reproduction device 6 records the video / audio recording data in the storage unit 63 by using the recording control unit 621 of the data received by the video / audio data reception unit 611 shown in FIG. At this time, the video / audio data may or may not be compressed.

(ステップS53)
映像・音声再生装置6は、ステップS52の数秒後にディレイ再生(遅延再生)を行う。遅延秒数は図6に示す記憶部63の設定データSUDで設定されている値によって決定されるが、音声認識テキストが表示されてから、モニタの映像音声が再生されることが好ましく、音声認識処理が行われる平均時間を遅延量として設定していることが望ましい。
(Step S53)
The video / audio reproduction device 6 performs delay reproduction (delayed reproduction) several seconds after step S52. The delay seconds are determined by the value set in the setting data SUD of the storage unit 63 shown in FIG. 6, but it is preferable that the video / audio of the monitor is played back after the voice recognition text is displayed, and the voice recognition It is desirable to set the average time for processing as the delay amount.

(ステップS54)
情報処理装置5は、音声認識によって得られたテキストが誤っているとオペレータが判断した場合、テキストを修正する(ステップS28)。その際に修正アクション行う、例えば図17のように修正エリア52dを登場させるが、キーボードで修正が行われる際、この時間は修正オペレータの聞き取り作業ができなくなるため、再生を止めるか再生を止めたり、遅くしたりする必要が出てくる。
(Step S54)
When the operator determines that the text obtained by voice recognition is incorrect, the information processing apparatus 5 corrects the text (step S28). At that time, a correction action is performed, for example, a correction area 52d is made to appear as shown in FIG. 17, but when the correction is performed with the keyboard, the correction operator cannot hear the work during this time. , It will be necessary to slow down.

(ステップS55)
情報処理装置5は、音声認識テキストデータ出力制御サーバ3に対して、修正中であることを伝えるため、修正中ステータスを出力する。
(Step S55)
The information processing apparatus 5 outputs the correction status to the voice recognition text data output control server 3 in order to notify that the correction is in progress.

(ステップS56)
情報処理装置5から修正中ステータスを受け取った音声認識テキストデータ出力制御サーバ3は、スロー再生制御ステータスに切り替える。
(Step S56)
The voice recognition text data output control server 3 that has received the correction status from the information processing apparatus 5 switches to the slow playback control status.

(ステップS57)
音声認識テキストデータ出力制御サーバ3は、映像・音声再生装置6に対して、スロー再生制御ステータスを伝えるため、スロー再生指示を出力する。
(Step S57)
The voice recognition text data output control server 3 outputs a slow playback instruction to the video / voice playback device 6 in order to convey the slow playback control status.

(ステップS58)
音声認識テキストデータ出力制御サーバ3からスロー再生指示を、図6に記載の外部制御受信部613で受けた映像・音声再生装置6はスロー再生指示部624から映像音声データ再生部612にスロー再生指示を出し、映像音声データ再生部612は映像・音声のスロー再生処理を行う。
(Step S58)
The video / audio playback device 6 received a slow playback instruction from the voice recognition text data output control server 3 by the external control receiving unit 613 shown in FIG. 6 is a slow playback instruction from the slow playback instruction unit 624 to the video / audio data playback unit 612. Is issued, and the video / audio data reproduction unit 612 performs slow reproduction processing of video / audio.

(ステップS59)
情報処理装置5は、修正が完了した場合、例えば図12のTAKEボタン517を押下した際には修正が完了したことを示し、再生が規定ディレイ値に追いつくために倍速再生にする必要がある。
(Step S59)
When the correction is completed, for example, when the TAKE button 517 of FIG. 12 is pressed, the information processing apparatus 5 indicates that the correction is completed, and it is necessary to perform double-speed playback in order for the playback to catch up with the specified delay value.

(ステップS60)
情報処理装置5は、音声認識テキストデータ出力制御サーバ3に対して、修正が終了したことを伝えるため、通常ステータスを出力する。
(Step S60)
The information processing apparatus 5 outputs a normal status to the voice recognition text data output control server 3 in order to notify that the correction is completed.

(ステップS61)
情報処理装置5から通常ステータスを受け取った音声認識テキストデータ出力制御サーバ3は、倍速再生制御ステータスに切り替える。
(Step S61)
The voice recognition text data output control server 3 that has received the normal status from the information processing apparatus 5 switches to the double speed playback control status.

(ステップS62)
音声認識テキストデータ出力制御サーバ3は、映像・音声再生装置6に対して、倍速再生制御ステータスを伝えるため、倍速再生指示を出力する。
(Step S62)
The voice recognition text data output control server 3 outputs a double speed playback instruction to the video / voice playback device 6 in order to convey the double speed playback control status.

(ステップS63)
音声認識テキストデータ出力制御サーバ3から倍速再生指示を、図6に記載の外部制御受信部613で受けた映像・音声再生装置6は倍速再生指示部625から映像音声データ再生部612に倍速再生指示を出し、映像音声データ再生部612は映像・音声の倍速再生処理を行う。倍速再生とは前述したとおり2倍という意味ではなく、1.2倍、1.3倍といったn倍速を表す。
(Step S63)
The video / audio playback device 6 received a double-speed playback instruction from the voice recognition text data output control server 3 by the external control receiving unit 613 shown in FIG. 6 has a double-speed playback instruction from the double-speed playback instruction unit 625 to the video / audio data playback unit 612. Is output, and the video / audio data reproduction unit 612 performs double-speed reproduction processing of video / audio. Double-speed reproduction does not mean 2 times as described above, but means n times speed such as 1.2 times and 1.3 times.

(ステップS64)
映像・音声再生装置6は映像音声データ再生部612で映像・音声の倍速再生処理を行うが、規定のディレイ値に追い付いたかどうかを判断し、追いついていれば映像音声データ再生部612に倍速再生指示はストップし、ステップS53の通常再生に戻す。戻っていなければステップS63のとおり倍速再生を続ける。このステップを続けながら音声認識テキスト修正を行っていき、放送字幕のテキストを作成していく。
(Step S64)
The video / audio playback device 6 performs video / audio double-speed playback processing on the video / audio data playback unit 612, determines whether or not the specified delay value has been caught, and if it has caught up, double-speed playback on the video / audio data playback unit 612. The instruction is stopped, and the normal playback in step S53 is restored. If it has not returned, double-speed playback is continued as in step S63. While continuing this step, we will correct the voice recognition text and create the text of the broadcast subtitles.

1 リアルタイム音声入力処理装置
2 音声認識処理サーバ
3 音声認識テキストデータ出力制御サーバ
4 形態素解析サーバ
5 情報処理装置
6 映像・音声再生装置
21 音声認識処理サーバ送受信部
22 音声認識処理サーバ情報処理部
23 音声認識処理サーバ記憶部
31 音声認識テキストデータ出力制御サーバ送受信部
32 音声認識テキストデータ出力制御サーバ情報処理部
33 音声認識テキストデータ出力制御サーバ記憶部
51 情報処理装置送受信部
52 情報処理装置表示部
53 情報処理装置情報処理
54 情報処理装置記憶部
41 形態素解析サーバ送受信部
42 形態素解析サーバ情報処理部
43 形態素解析サーバ記憶部
61 映像・音声再生装置送受信部
62 映像・音声再生装置情報処理部
63 映像・音声再生装置記憶部
100 情報処理システム
211 リアルタイム音声データ受信部
212 辞書テキストデータ受信部
213 修正結果テキストデータ受信部
214 音声認識結果テキストデータ/音声データ送信部
221 音声認識部
222 辞書データ生成部
223 テキスト出力部
311 音声認識結果テキスト/音声データ受信部
312 放送用テキストデータ送信部
313 辞書用修正結果テキストデータ送信部
314 修正前テキスト/音声送信部
321 音声認識結果修正処理部
322 修正結果辞書生成部
323 放送用テキスト出力部
324 修正前テキスト/音声出力部
411 外部テキスト受信部
412 辞書データ送信部
421 形態素解析部
422 読みデータ生成部
423 辞書生成部
424 出現スコア計算部
611 映像音声データ受信部
612 映像音声再生部
613 外部制御受信部
621 収録制御部
622 音声再生部
623 画像再生部
624 スロー再生指示部
625 倍速再生指示部
AMD 音響モデルデータ
ATD2 時刻付音声データ
ATD3 時刻付音声データ
DID 辞書データ
DMD 辞書生成データ
LMD 言語モデルデータ
MDD 修正結果辞書データ
MDT 形態素解析ツール
OTD 外部テキストデータ
RBT 読み合わせツール
RTL 受信テキストログ
STL 送信テキストログ
SUL 設定データ
VAD 映像・音声収録データ
1 Real-time voice input processing device 2 Voice recognition processing server 3 Voice recognition text data output control server 4 Morphological analysis server 5 Information processing device 6 Video / voice playback device 21 Voice recognition processing server Transmission / reception unit 22 Voice recognition processing server Information processing unit 23 Voice Recognition processing server Storage unit 31 Voice recognition text data output control server Transmission / reception unit 32 Voice recognition text data output control server Information processing unit 33 Voice recognition text data output control server Storage unit 51 Information processing device Transmission / reception unit 52 Information processing device display unit 53 Information Processing device information processing 54 Information processing device storage unit 41 Morphological analysis server transmission / reception unit 42 Morphological analysis server information processing unit 43 Morphological analysis server storage unit 61 Video / audio playback device transmission / reception unit 62 Video / audio playback device information processing unit 63 Video / audio Reproduction device Storage unit 100 Information processing system 211 Real-time voice data reception unit 212 Dictionary text data reception unit 213 Correction result text data reception unit 214 Voice recognition result text data / voice data transmission unit 221 Voice recognition unit 222 Dictionary data generation unit 223 Text output Part 311 Voice recognition result text / voice data reception unit 312 Broadcast text data transmission unit 313 Dictionary correction result text data transmission unit 314 Uncorrected text / voice transmission unit 321 Voice recognition result correction processing unit 322 Correction result dictionary generation unit 323 Broadcast Text output unit 324 Uncorrected text / audio output unit 411 External text receiver 412 Dictionary data transmission unit 421 Morphological analysis unit 422 Reading data generation unit 423 Dictionary generation unit 424 Appearance score calculation unit 611 Video / audio data reception unit 612 Video / audio playback Unit 613 External control reception unit 621 Recording control unit 622 Audio reproduction unit 623 Image reproduction unit 624 Slow playback instruction unit 625 Double speed playback instruction unit AMD Acoustic model data ATD2 Timed audio data ATD3 Timed audio data DID dictionary data DMD dictionary generation data LMD Language model data MDD correction result dictionary data MDT morphological analysis tool OTD external text data RBT reading tool RTL received text log STL transmitted text log SUL setting data VAD video / audio recording data

Claims (10)

音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。
A voice recognition text data output control device that controls the output of voice data and text data that is the result of voice recognition of the voice data.
An analysis means for morphological analysis of a text data group obtained by a voice recognition processing means, and an analysis means.
When the text data group analyzed by the analysis means is displayed and controlled by block display for each morpheme, and a right-horizontal swipe action is performed across a plurality of blocks of the block display displayed by the display control, the multiple blocks are displayed. A display control unit that controls the block display by grouping the data into one block,
A voice recognition text data output control device characterized by being equipped with.
請求項1に記載の音声認識テキストデータ出力制御装置であって、
音声認識処理を行う映像データ、または音声データを収録する第一収録部と、
前記表示制御で表示された前記ブロック表示の1ブロックをダブルタップアクションした際に、前記1ブロックに該当するテキストに関連づけられている第一収録部に収録された音声データ再生する音声再生部と、
前記1ブロックに該当するテキストに関連づけられている第一収録部に収録された映像データの一部の画像を再生する画像再生部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。
The voice recognition text data output control device according to claim 1.
The first recording unit that records video data or audio data that performs audio recognition processing,
When one block of the block display displayed by the display control is double-tapped, the audio reproduction unit that reproduces the audio data recorded in the first recording unit associated with the text corresponding to the one block, and the audio reproduction unit.
An image reproduction unit that reproduces a part of the image of the video data recorded in the first recording unit associated with the text corresponding to the one block, and an image reproduction unit.
A voice recognition text data output control device characterized by being equipped with.
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションした際に、前記1ブロックを消去して表示、及び前記ブロック表示の1ブロックを下スワイプアクションした際に、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御する表示制御部と、
前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションし、前記1ブロックを消去して表示したと同時に、前記1ブロックに該当するテキストを削除する、及び前記ブロック表示の1ブロックを下スワイプアクションし、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御すると同時に、前記1ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集部と
を備えることを特徴とした音声認識テキストデータ出力制御装置。
A voice recognition text data output control device that controls the output of voice data and text data that is the result of voice recognition of the voice data.
An analysis means for morphological analysis of a text data group obtained by a voice recognition processing means, and an analysis means.
The display control of the text data group analyzed by the analysis means is performed by block display for each morpheme, and when one block of the block display displayed by the display control is swiped up, the one block is erased. When the display and one block of the block display are swiped down, the blocks after the one block are displayed and controlled below the one block, and the display control unit.
Swipe up one block of the block display displayed by the display control to erase and display the one block, and at the same time, delete the text corresponding to the one block and display one block of the block display. A text editing unit that inserts a line feed code after the text corresponding to the one block at the same time as controlling the display of the blocks after the first block by swiping down .
A voice recognition text data output control device characterized by being equipped with.
請求項3に記載の音声認識テキストデータ出力制御装置であって、
前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。
The voice recognition text data output control device according to claim 3 .
When a right-horizontal swipe action is performed across a plurality of blocks of the block display displayed by the display control, a display control unit that collectively controls the block display of the plurality of blocks into one block, and a display control unit.
A voice recognition text data output control device characterized by being equipped with.
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段と、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行う表示制御を行い、前記表示制御で表示された前記ブロック表示の1ブロックをタップアクションした際に、前記1ブロックに該当するテキストを直接キーボードで修正可能なテキスト修正エリアを表示制御する表示制御部と、
音声認識処理を行う映像データ、もしくは音声データを収録する第二収録部と、
通常時は前記第二収録部に収録された映像データ、または音声データを映像音声データ受信時から設定した時間を遅延させて等倍再生し、前記設定した時間以上遅延していた場合は規定の倍速再生をする再生部と、
前記表示制御部が前記修正エリアを表示した際に、前記再生部に対しスロー再生を指示するスロー再生指示部と、
前記表示制御部が前記修正エリアの表示を終了した際に、前記再生部に対し規定の倍速再生を指示する倍速再生指示部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。
A voice recognition text data output control device that controls the output of voice data and text data that is the result of voice recognition of the voice data.
An analysis means for morphological analysis of a text data group obtained by a voice recognition processing means, and an analysis means.
Display control is performed to control the display of the text data group analyzed by the analysis means by block display for each morpheme, and when one block of the block display displayed by the display control is tapped, the block is displayed. A display control unit that controls the display of the text correction area where the corresponding text can be corrected directly with the keyboard,
Video data that performs voice recognition processing, or a second recording unit that records voice data,
Normally, the video data or audio data recorded in the second recording unit is played back at the same magnification with a delay of the set time from the time of receiving the video / audio data, and if the delay is longer than the set time , the specified time is specified. A playback unit that plays at double speed,
When the display control unit displays the correction area, a slow playback instruction unit that instructs the playback unit to perform slow playback, and a slow playback instruction unit.
When the display control unit finishes displaying the correction area, the double-speed reproduction instruction unit that instructs the reproduction unit to perform the specified double-speed reproduction,
A voice recognition text data output control device characterized by being equipped with.
請求項5に記載の音声認識テキストデータ出力制御装置であって、
前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御部と、
を備えることを特徴とした音声認識テキストデータ出力制御装置。
The voice recognition text data output control device according to claim 5.
When a right-horizontal swipe action is performed across a plurality of blocks of the block display displayed by the display control, a display control unit that collectively controls the block display of the plurality of blocks into one block, and a display control unit .
A voice recognition text data output control device characterized by being equipped with.
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、
前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御ステップと、
を備えることを特徴とした音声認識テキストデータ出力制御方法。
It is a voice recognition text data output control method that controls the output of voice data and text data that is the result of voice recognition of the voice data.
An analysis step for morphological analysis of text data groups obtained by speech recognition processing means,
When the text data group analyzed in the analysis step is displayed and controlled by block display for each morpheme, and a right-horizontal swipe action is performed across a plurality of blocks of the block display displayed by the display control, the multiple blocks are displayed. A display control step that controls the block display by grouping the data into one block ,
A voice recognition text data output control method characterized by being equipped with.
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析ステップと、
前記解析ステップで解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションした際に、前記1ブロックを消去して表示制御する、及び前記ブロック表示の1ブロックを下スワイプアクションした際に、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御する表示制御ステップと、
前記表示制御ステップで表示された前記ブロック表示の1ブロックを上スワイプアクションし、前記1ブロックを消去して表示したと同時に、前記1ブロックに該当するテキストを削除する、及び前記ブロック表示の1ブロックを下スワイプアクションし、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御すると同時に、前記1ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集ステップと
を備えることを特徴とした音声認識テキストデータ出力制御方法。
It is a voice recognition text data output control method that controls the output of voice data and text data that is the result of voice recognition of the voice data.
An analysis step for morphological analysis of text data groups obtained by speech recognition processing means,
The display control of the text data group analyzed in the analysis step is performed by block display for each morpheme, and when one block of the block display displayed by the display control is swiped up, the one block is deleted. When the display is controlled and one block of the block display is swiped down, the blocks after the one block are displayed and controlled below the one block, and the display control step.
Swipe up one block of the block display displayed in the display control step to erase and display the one block, and at the same time, delete the text corresponding to the one block, and one block of the block display. Swipe down to control the display of blocks after the 1st block below the 1st block, and at the same time, insert a line feed code after the text corresponding to the 1st block, and a text editing step .
A voice recognition text data output control method characterized by being equipped with.
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御するコンピュータを、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の複数ブロックを跨いで右横スワイプアクションした際に、前記複数ブロックを1ブロックにまとめてブロック表示制御する表示制御手段、
を備えることを特徴とした音声認識テキストデータ出力制御プログラム。
A voice recognition text data output control computer that controls the output of voice data and text data that is the result of voice recognition of the voice data.
An analysis means for morphological analysis of text data groups obtained by speech recognition processing means,
When the text data group analyzed by the analysis means is displayed and controlled by block display for each morpheme, and a right-horizontal swipe action is performed across a plurality of blocks of the block display displayed by the display control, the multiple blocks are displayed. Display control means for controlling block display by grouping
A voice recognition text data output control program characterized by being equipped with.
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御するコンピュータを、
音声認識処理手段で得られたテキストデータ群を形態素解析する解析手段、
前記解析手段で解析されたテキストデータ群を形態素ごとにブロック表示で表示制御を行い、前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションした際に、前記1ブロックを消去して表示制御する、及び前記ブロック表示の1ブロックを下スワイプアクションした際に、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御する表示制御手段、
前記表示制御で表示された前記ブロック表示の1ブロックを上スワイプアクションし、前記1ブロックを消去して表示したと同時に、前記1ブロックに該当するテキストを削除する、及びブロック表示の1ブロックを下スワイプアクションし、前記1ブロック以降のブロックは前記1ブロックよりも下段に表示制御すると同時に、前記1ブロックに該当するテキストの後ろに改行コードを挿入するテキスト編集手段
を備えることを特徴とした音声認識テキストデータ出力制御プログラム。
A voice recognition text data output control computer that controls the output of voice data and text data that is the result of voice recognition of the voice data.
An analysis means for morphological analysis of text data groups obtained by speech recognition processing means,
The display control of the text data group analyzed by the analysis means is performed by block display for each morpheme, and when one block of the block display displayed by the display control is swiped up, the one block is erased. A display control means for controlling display and controlling the display of one block of the block display below the one block when the one block of the block display is swiped down.
Swipe up one block of the block display displayed by the display control to erase and display the one block, and at the same time, delete the text corresponding to the one block and move down one block of the block display. A text editing means that swipes to control the display of blocks after the first block below the one block, and at the same time inserts a line feed code after the text corresponding to the one block .
A voice recognition text data output control program characterized by being equipped with.
JP2020184011A 2020-11-02 2020-11-02 Speech recognition text data output control device, speech recognition text data output control method, and program Active JP7087041B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020184011A JP7087041B2 (en) 2020-11-02 2020-11-02 Speech recognition text data output control device, speech recognition text data output control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020184011A JP7087041B2 (en) 2020-11-02 2020-11-02 Speech recognition text data output control device, speech recognition text data output control method, and program

Publications (2)

Publication Number Publication Date
JP2022073807A JP2022073807A (en) 2022-05-17
JP7087041B2 true JP7087041B2 (en) 2022-06-20

Family

ID=81604874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020184011A Active JP7087041B2 (en) 2020-11-02 2020-11-02 Speech recognition text data output control device, speech recognition text data output control method, and program

Country Status (1)

Country Link
JP (1) JP7087041B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294785A (en) 2008-06-03 2009-12-17 Casio Comput Co Ltd Electronic dictionary apparatus and program
JP2016200896A (en) 2015-04-08 2016-12-01 富士通株式会社 Character input method, device and program
JP2019148681A (en) 2018-02-27 2019-09-05 富士通株式会社 Text correction device, text correction method and text correction program
JP2019197321A (en) 2018-05-08 2019-11-14 京セラドキュメントソリューションズ株式会社 Image processing apparatus and image forming apparatus
JP2020516994A (en) 2017-03-29 2020-06-11 北京捜狗科技▲発▼展有限公司 Text editing method, device and electronic device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6192104B2 (en) * 2013-09-13 2017-09-06 国立研究開発法人情報通信研究機構 Text editing apparatus and program
JP7119857B2 (en) * 2018-09-28 2022-08-17 富士通株式会社 Editing program, editing method and editing device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294785A (en) 2008-06-03 2009-12-17 Casio Comput Co Ltd Electronic dictionary apparatus and program
JP2016200896A (en) 2015-04-08 2016-12-01 富士通株式会社 Character input method, device and program
JP2020516994A (en) 2017-03-29 2020-06-11 北京捜狗科技▲発▼展有限公司 Text editing method, device and electronic device
JP2019148681A (en) 2018-02-27 2019-09-05 富士通株式会社 Text correction device, text correction method and text correction program
JP2019197321A (en) 2018-05-08 2019-11-14 京セラドキュメントソリューションズ株式会社 Image processing apparatus and image forming apparatus

Also Published As

Publication number Publication date
JP2022073807A (en) 2022-05-17

Similar Documents

Publication Publication Date Title
US8386265B2 (en) Language translation with emotion metadata
US8447604B1 (en) Method and apparatus for processing scripts and related data
US6172675B1 (en) Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US20150098018A1 (en) Techniques for live-writing and editing closed captions
US20110093263A1 (en) Automated Video Captioning
US20080275700A1 (en) Method of and System for Modifying Messages
JPWO2018216729A1 (en) Audio guide generation device, audio guide generation method, and broadcast system
CN110740275B (en) Nonlinear editing system
CN113035199B (en) Audio processing method, device, equipment and readable storage medium
JP2012181358A (en) Text display time determination device, text display system, method, and program
CN111885416B (en) Audio and video correction method, device, medium and computing equipment
JP6327745B2 (en) Speech recognition apparatus and program
JP7107229B2 (en) Information processing device, information processing method, and program
CN110781649A (en) Subtitle editing method and device, computer storage medium and electronic equipment
JP4020083B2 (en) Transcription text creation support system and program
JP5751627B2 (en) WEB site system for transcription of voice data
US20200075000A1 (en) System and method for broadcasting from a group of speakers to a group of listeners
Pražák et al. Live TV subtitling through respeaking with remote cutting-edge technology
CN113591491B (en) Speech translation text correction system, method, device and equipment
CN113365109A (en) Method and device for generating video subtitles, electronic equipment and storage medium
JP7087041B2 (en) Speech recognition text data output control device, speech recognition text data output control method, and program
JP2013050605A (en) Language model switching device and program for the same
JP2014134640A (en) Transcription device and program
JP2020201363A (en) Voice recognition text data output control device, voice recognition text data output control method, and program
CN111429878A (en) Self-adaptive speech synthesis method and device

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20201106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210105

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210116

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210929

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210929

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20211013

C12 Written invitation by the commissioner to file intermediate amendments

Free format text: JAPANESE INTERMEDIATE CODE: C12

Effective date: 20211013

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211018

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211019

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20211224

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20211228

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220407

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220516

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220608

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220608

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220608

R150 Certificate of patent or registration of utility model

Ref document number: 7087041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150