JP7481863B2 - Speech recognition error correction support device, program, and method - Google Patents

Speech recognition error correction support device, program, and method Download PDF

Info

Publication number
JP7481863B2
JP7481863B2 JP2020039124A JP2020039124A JP7481863B2 JP 7481863 B2 JP7481863 B2 JP 7481863B2 JP 2020039124 A JP2020039124 A JP 2020039124A JP 2020039124 A JP2020039124 A JP 2020039124A JP 7481863 B2 JP7481863 B2 JP 7481863B2
Authority
JP
Japan
Prior art keywords
speech recognition
editing
error correction
word
unrecognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020039124A
Other languages
Japanese (ja)
Other versions
JP2021140084A (en
Inventor
剛 三島
庄衛 佐藤
智康 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2020039124A priority Critical patent/JP7481863B2/en
Publication of JP2021140084A publication Critical patent/JP2021140084A/en
Application granted granted Critical
Publication of JP7481863B2 publication Critical patent/JP7481863B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、音声認識の誤り修正を支援する音声認識誤り修正支援装置、プログラムおよび方法、ならびに、音声認識装置に関する。 The present invention relates to a speech recognition error correction assistance device, program, and method for assisting in the correction of speech recognition errors, and a speech recognition device.

番組取材等で収録した音声コンテンツ(映像と音声のコンテンツを含む)の音声を文字として利用する場合、音声の書き起こし作業が必須の作業となっている。通常、この作業は、作業者が、収録したコンテンツの音声を聴取し、端末のキーボード等で文字を入力することにより行っている。このとき、作業者は、音声の再生と停止を頻繁に繰り返したり、何度も同一箇所の音声を聞き直したりすることになるが、この作業は熟練者であってもコンテンツの収録時間に対して約4倍の作業時間がかかるとも言われている。
従来の音声の書き起こし作業を支援する技術として、単語単位で音声の再生を可能とし、音声認識の完了済みまたは音声認識中のコンテンツであっても、複数の修正端末での待ち時間を抑えて、迅速に音声認識の誤りを修正することが可能な音声認識誤り修正支援装置の技術が開示されている(特許文献1,2参照)。
When audio content (including video and audio content) recorded during program reporting, etc. is to be used as text, the task of transcribing the audio is essential. Normally, this task is performed by an operator who listens to the audio of the recorded content and enters text using a terminal keyboard, etc. In this case, the operator must frequently repeat the playback and pausing of the audio, or listen to the same part of the audio several times, and it is said that this task takes about four times the time of the content recording, even for an experienced operator.
As a technology to assist with conventional speech transcription work, there has been disclosed a technology for a speech recognition error correction assistance device that enables speech to be played back on a word-by-word basis and can quickly correct speech recognition errors by reducing waiting time at multiple correction terminals, even for content for which speech recognition has already been completed or is currently being recognized (see Patent Documents 1 and 2).

特開2018-180519号公報JP 2018-180519 A 特開2019-197210号公報JP 2019-197210 A

特許文献1,2で開示されている従来技術は、修正端末において、認識結果の単語をマウス等でクリックするだけで、その単語に同期した音声を再生することができる。そのため、従来技術は、指定した単語の音声を素早く再生し、効率よく音声認識の誤りを修正することができる。
一方、この従来技術は、音声のない区間や音声認識が困難で認識結果が出力されない区間(未認識区間)を修正端末の作業者が認識できない。そのため、従来技術は、未認識区間において、音声の再生位置を指定することができない。例えば、作業者が未認識区間の後半部分の音声を確認したくても、従来技術は、未認識区間の直前の単語から音声を再生し、所望の確認位置まで待たなければならない。
このような従来技術に対して、未認識区間であっても、指定した位置の音声を再生して、効率よく修正作業を行いたいという要望がある。
The conventional techniques disclosed in Patent Documents 1 and 2 allow a user to play back speech synchronized with a word in the recognition results by simply clicking the word with a mouse or the like on the editing terminal. Therefore, the conventional techniques allow the user to quickly play back the speech of a specified word and efficiently correct speech recognition errors.
On the other hand, this conventional technology does not allow the operator of the editing terminal to recognize sections without speech or sections where speech recognition is difficult and no recognition results are output (unrecognized sections). Therefore, the conventional technology does not allow the operator to specify the playback position of the speech in the unrecognized section. For example, even if the operator wants to check the speech in the latter half of the unrecognized section, the conventional technology must play back the speech from the word immediately before the unrecognized section and wait until the desired confirmation position.
In response to such conventional techniques, there is a demand for a system that allows for efficient correction work by playing back audio at a specified position even in an unrecognized section.

そこで、本発明は、音声の未認識区間を視覚化し、未認識区間においても、指定した位置の音声を再生し修正作業を行うことが可能な音声認識誤り修正支援装置、プログラムおよび方法を提供することを課題とする。 Therefore, an object of the present invention is to provide a speech recognition error correction assistance device, program, and method that can visualize unrecognized sections of speech and play back speech at a specified position even in an unrecognized section so that correction work can be performed.

前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、音声認識の誤りを修正する音声認識誤り修正支援装置であって、編集手段を備え、編集手段が、編集画面制御手段と、音声出力手段と、誤り修正手段と、を備える構成とした。 In order to solve the above problems, the speech recognition error correction assistance device according to the present invention is a speech recognition error correction assistance device that corrects speech recognition errors, and is equipped with an editing means, which is configured to include an editing screen control means, a voice output means, and an error correction means.

かかる構成において、音声認識誤り修正支援装置は、編集手段によって、音声認識の誤りを修正する。
ここで、編集手段は、編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示する。この編集画面制御手段は、未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替える。
また、編集手段は、音声出力手段によって、編集画面上で指定された単語または記号の時間情報に対応する音声を出力する。これによって、作業者は、音声認識されたテキストと音声とを単語ごとに確認することが可能になる。また、作業者は、未認識区間において指定の位置まで音声再生を飛ばして音声を確認することが可能になる。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容で、単語または記号を更新する。
In such a configuration, the speech recognition error correction assistance device corrects the speech recognition error by the editing means.
Here, the editing means displays an editing screen including words constituting the speech recognition result and predetermined symbols indicating unrecognized sections of speech for which no recognition result was generated in the speech recognition by the editing screen control means. The editing screen control means switches between displaying and not displaying the symbols of the unrecognized sections by selection on a menu screen or by pressing a predetermined shortcut key.
The editing means also outputs, by the audio output means, audio corresponding to time information of a word or symbol specified on the editing screen. This allows the worker to check the recognized text and audio for each word. The worker can also skip the audio playback to a specified position in an unrecognized section and check the audio.
Then, the speech recognition error correction assistance device updates the word or symbol with the correction content corrected on the editing screen by the error correction means.

また、前記課題を解決するため、本発明に係る音声認識誤り修正支援装置は、音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援装置であって、記憶手段と、複数の編集手段と、を備え、編集手段が、編集画面制御手段と、音声出力手段と、誤り修正手段と、を備える構成とした。 In order to solve the above problem, the speech recognition error correction assistance device according to the present invention is a speech recognition error correction assistance device that corrects speech recognition errors at multiple correction terminals, and is equipped with a storage means and multiple editing means, and the editing means is configured to include an editing screen control means, a voice output means, and an error correction means.

かかる構成において、音声認識誤り修正支援装置は、音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶手段に記憶する。 In this configuration, the speech recognition error correction assistance device stores in a storage means predetermined symbols indicating words in the speech recognition result and unrecognized sections of speech for which no recognition result was generated in the speech recognition, in association with the respective time information.

そして、音声認識誤り修正支援装置は、編集手段によって、音声認識の誤りを修正する。
ここで、編集手段は、編集画面制御手段によって、音声認識結果を構成する単語と、未認識区間を示す予め定めた記号と、を含んだ編集画面を対応する修正端末に表示する。この編集画面制御手段は、未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替える。
また、編集手段は、音声出力手段によって、編集画面上で指定された単語または記号の時間情報に対応する音声を対応する修正端末に出力する。
そして、音声認識誤り修正支援装置は、誤り修正手段によって、編集画面で修正された修正内容で、記憶手段に記憶されている単語または記号を後書き優先で更新する。
また、音声認識誤り修正支援装置は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
また、前記課題を解決するため、本発明に係る音声認識誤り修正支援方法は、前記した各手段の動作をステップとして含む手順で動作させることができる。
Then, the speech recognition error correction assistance device corrects the speech recognition error by the editing means.
Here, the editing means displays an editing screen including words constituting the speech recognition result and predetermined symbols indicating unrecognized sections on the corresponding editing terminal by the editing screen control means. The editing screen control means switches between displaying and not displaying the symbols of unrecognized sections by selection on a menu screen or by pressing a predetermined shortcut key.
The editing means also outputs, by the voice output means, a voice corresponding to the time information of the word or symbol designated on the editing screen to the corresponding editing terminal.
Then, the speech recognition error correction assistance device updates the words or symbols stored in the storage means with the correction contents corrected on the editing screen by the error correction means, with postscript taking priority.
The speech recognition error correction assistance device can be operated by a speech recognition error correction assistance program for causing a computer to function as each of the above-mentioned means.
In order to achieve the above object, the speech recognition error correction assistance method according to the present invention can be operated in a procedure including the operations of the above-mentioned means as steps.

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、コンテンツを音声認識した結果として、音声認識されなかった時間区間を予め定めた記号で可視化することができる。
これによって、本発明は、音声認識されなかった時間区間において、コンテンツの音声の再生位置を指定することができるとともに、音声認識結果に対する修正と同様に、テキスト編集を行うことができる。
The present invention provides the following excellent effects.
According to the present invention, as a result of speech recognition of content, time periods during which speech recognition was not performed can be visualized with predetermined symbols.
As a result, the present invention makes it possible to specify the playback position of the audio of the content in a time section where audio recognition was not performed, and also makes it possible to perform text editing in the same manner as correcting the results of audio recognition.

本発明の実施形態に係る音声認識誤り修正システムの構成を示すブロック構成図である。1 is a block diagram showing a configuration of a speech recognition error correction system according to an embodiment of the present invention; 本発明の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。1 is a block diagram showing a configuration of a speech recognition error correction assistance device according to an embodiment of the present invention; コンテンツ情報記憶手段が記憶する記憶内容を説明するための説明図である。FIG. 2 is an explanatory diagram for explaining contents stored in a content information storage means; 音声認識情報の内容を説明するための説明図である。FIG. 2 is an explanatory diagram for explaining the contents of voice recognition information. セグメント情報の内容を説明するための説明図である。FIG. 11 is an explanatory diagram for explaining the contents of segment information. コンテンツを選択する画面の例を示す図であって、(a)は選択画面例、(b)はリストボックス例、(c)は現時間設定ボタンを押下された際の選択画面例を示す。11A and 11B are diagrams showing examples of screens for selecting content, where (a) is an example of a selection screen, (b) is an example of a list box, and (c) is an example of a selection screen when a current time setting button is pressed. コンテンツを選択する際の開始時刻および終了時刻を説明するための説明図である。FIG. 11 is an explanatory diagram for explaining a start time and an end time when selecting content. コンテンツの音声認識結果を分割したセグメントの一覧を示すセグメント一覧画面の一例を示す画面構成図である。FIG. 13 is a screen configuration diagram showing an example of a segment list screen showing a list of segments into which a voice recognition result of a content is divided. セグメント一覧画面で編集領域に音声認識結果を展開した例を示す画面構成図である。13 is a screen configuration diagram showing an example in which a speech recognition result is displayed in an editing area on the segment list screen. FIG. 異なる修正端末での編集画面を示し、同じ対象を修正している状態を説明するための説明図である。13A and 13B are explanatory diagrams showing editing screens on different editing terminals and explaining a state in which the same object is being edited. 編集領域における音声認識結果に対する編集作業の一例を説明するための説明図である。11 is an explanatory diagram for explaining an example of an editing operation on a speech recognition result in an editing area. FIG. 編集領域における音声の未認識区間に対する音声再生処理の一例を説明するための説明図である。11 is an explanatory diagram for explaining an example of a voice reproduction process for an unrecognized section of voice in an editing area; FIG. 編集領域における音声の未認識区間に対する文字列置換処理の一例を説明するための説明図である。11 is an explanatory diagram for explaining an example of a character string replacement process for an unrecognized section of speech in an editing area; FIG. 編集領域における音声の未認識区間に対するコメント追加処理の一例を説明するための説明図である。11 is an explanatory diagram illustrating an example of a comment adding process for an unrecognized section of speech in an editing area; FIG. 修正結果出力手段が生成する修正結果の一例を説明するための説明図である。FIG. 11 is an explanatory diagram for explaining an example of a correction result generated by a correction result output means; 本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で生成するセグメント情報生成動作を示すフローチャートである。5 is a flowchart showing a segment information generating operation for generating a speech recognition result in units of segments in the speech recognition error correction assistance device according to the embodiment of the present invention. 本発明の実施形態に係る音声認識誤り修正支援装置の音声認識結果をセグメント単位で修正端末に提示するセグメント情報提示動作を示すフローチャートである。10 is a flowchart showing a segment information presenting operation of presenting a speech recognition result of the speech recognition error correction assistance device according to the embodiment of the present invention to a correction terminal on a segment basis. 本発明の実施形態に係る音声認識誤り修正支援装置の音声再生を行いながら認識結果を修正するセグメント修正動作を示すフローチャートである。4 is a flowchart showing a segment correction operation of correcting a recognition result while playing back a voice in the speech recognition error correction assistance device according to the embodiment of the present invention; 本発明の変形例の実施形態に係る音声認識誤り修正支援装置の構成を示すブロック構成図である。FIG. 13 is a block diagram showing the configuration of a speech recognition error correction assistance device according to a modified embodiment of the present invention. コンテキストメニューを表示したセグメント一覧画面の一例を示す画面構成図である。FIG. 13 is a screen configuration diagram showing an example of a segment list screen on which a context menu is displayed. 本発明の実施形態に係る音声認識装置の構成を示すブロック構成図である。1 is a block diagram showing a configuration of a voice recognition device according to an embodiment of the present invention;

以下、本発明の実施形態について図面を参照して説明する。
[音声認識誤り修正システムの概要]
最初に、図1を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1を含んだ音声認識誤り修正システムSの概要について説明する。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
[Outline of the speech recognition error correction system]
First, with reference to FIG. 1, an overview of a speech recognition error correction system S including a speech recognition error correction assistance device 1 according to an embodiment of the present invention will be described.

音声認識誤り修正システムSは、少なくとも音声を含んだコンテンツにおける音声の認識誤りを修正するものである。なお、本実施形態では、コンテンツは、映像と音声とからなるコンテンツ、例えば、放送用素材コンテンツとして説明するが、音声を含むコンテンツであれば、放送用素材コンテンツに限るものではない。
音声認識誤り修正システムSは、音声認識誤り修正支援装置1と、複数の修正端末2(2,…,2)と、を備える。
The speech recognition error correction system S corrects speech recognition errors in content that includes at least speech. In this embodiment, the content is described as content consisting of video and audio, for example, broadcast material content, but is not limited to broadcast material content as long as it includes audio.
The speech recognition error correction system S includes a speech recognition error correction assistance device 1 and a plurality of correction terminals 2 (2, . . . , 2).

音声認識誤り修正支援装置1は、コンテンツの音声認識の誤りを修正するものである。
この音声認識誤り修正支援装置1は、コンテンツを逐次音声認識して認識結果と音声とを単語ごとに対応付け、修正端末2において、作業者が指定する任意の単語位置からの音声再生を可能とする。また、音声認識誤り修正支援装置1は、複数の修正端末2による修正を逐次反映し、複数の修正端末2で異なる修正があった場合、排他制御を行わずに、後の修正を有効とする。
The speech recognition error correction assistance device 1 corrects errors in speech recognition of content.
This speech recognition error correction assistance device 1 sequentially recognizes the speech of the content, associates the recognition result with the speech for each word, and enables the speech to be played back from any word position designated by the worker at the editing terminal 2. Furthermore, the speech recognition error correction assistance device 1 sequentially reflects corrections made by the multiple editing terminals 2, and when different corrections are made at the multiple editing terminals 2, validates the later correction without performing exclusive control.

修正端末2は、音声認識誤り修正支援装置1が音声認識したテキストデータである認識結果に含まれている誤りを修正するものである。この修正端末2は、キーボード等の入力装置、編集画面を表示する表示装置、音声を表示するスピーカ等を備える。表示装置は、タッチパネルを備える構成としてもよい。
音声認識誤り修正支援装置1と修正端末2とは、インターネット、イントラネット等で接続する。
このように、音声認識誤り修正支援装置1は、同じコンテンツに対して、排他制御を行わずに、複数の修正端末2により音声認識の誤りを修正する。
The correction terminal 2 corrects errors included in the recognition result, which is text data obtained by the speech recognition error correction assistance device 1. The correction terminal 2 includes an input device such as a keyboard, a display device for displaying an editing screen, a speaker for displaying voice, etc. The display device may be configured to include a touch panel.
The speech recognition error correction assistance device 1 and the correction terminal 2 are connected via the Internet, an intranet or the like.
In this manner, the speech recognition error correction assistance device 1 corrects speech recognition errors using a plurality of correction terminals 2 without performing exclusive control for the same content.

これによって、音声認識誤り修正システムSは、音声認識中のコンテンツであっても、単語単位で音声と認識結果とを確認することができるとともに、排他制御を行わないため、リアルタイムに複数の修正端末2によって迅速に音声認識の誤りを修正することができる。
以下、音声認識誤り修正支援装置1の構成および動作について説明する。
As a result, the speech recognition error correction system S can check the speech and recognition results on a word-by-word basis even for content that is currently being recognized, and since it does not perform exclusive control, it can quickly correct speech recognition errors in real time using multiple correction terminals 2.
The configuration and operation of the speech recognition error correction assistance device 1 will be described below.

[音声認識誤り修正支援装置の構成]
まず、図2を参照して、音声認識誤り修正支援装置1の構成について説明する。
音声認識誤り修正支援装置1は、図2に示すように、コンテンツ入力手段10と、音声認識手段11と、セグメント分割手段12と、未認識区間分割手段13と、セグメント内情報抽出手段14と、コンテンツ情報記憶手段15と、編集手段16(16,…,16)と、情報削除手段17と、を備える。
[Configuration of the speech recognition error correction support device]
First, the configuration of the speech recognition error correction assistance device 1 will be described with reference to FIG.
As shown in FIG. 2, the speech recognition error correction assistance device 1 comprises a content input means 10, a speech recognition means 11, a segment division means 12, an unrecognized section division means 13, an intra-segment information extraction means 14, a content information storage means 15, an editing means 16 (16, ..., 16), and an information deletion means 17.

コンテンツ入力手段10は、コンテンツを入力するものである。
コンテンツ入力手段10は、例えば、外部の記憶媒体からコンテンツを入力するものであってもよいし、通信回線を介して入力するものであってもよい。
このコンテンツ入力手段10は、入力したコンテンツのうち、音声については、音声認識手段11に出力する。また、コンテンツ入力手段10は、入力したコンテンツ(映像・音声)を、後記する編集手段16における修正作業に使用するため、コンテンツ情報記憶手段15に書き込み記憶する。
The content input means 10 is used to input content.
The content input means 10 may input the content from an external storage medium, for example, or may input the content via a communication line.
Of the input content, the content input means 10 outputs the audio to the audio recognition means 11. The content input means 10 also writes and stores the input content (video and audio) in the content information storage means 15 for use in editing work by the editing means 16 described below.

音声認識手段11は、コンテンツ入力手段10が入力したコンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを生成するものである。
この音声認識手段11は、図示を省略した言語モデル、音響モデル、発音辞書により、音声認識を行い、認識した単語と、その単語の音声の開始時間(単語開始時間)および時間長を示す時間情報とを生成する。音声認識手段11は、生成した認識結果の単語と時間情報とを、順次、セグメント分割手段12に通知するとともに、コンテンツ情報記憶手段15に書き込み記憶する。
なお、音声認識手段11における音声認識の手法は、例えば、特開2010-175765等に開示された音声から単語列を認識し、その結果を出力する手法を用いてもよい。
The voice recognition means 11 recognizes the voice of the content input by the content input means 10, and generates a recognition result that is text data and time information for each word that constitutes the recognition result.
The speech recognition means 11 performs speech recognition using a language model, an acoustic model, and a pronunciation dictionary (not shown), and generates recognized words and time information indicating the start time of the speech of the words (word start time) and their duration. The speech recognition means 11 notifies the segment division means 12 of the generated recognition result words and time information, and writes and stores them in the content information storage means 15.
The voice recognition method used by the voice recognition means 11 may be, for example, a method disclosed in Japanese Patent Application Laid-Open No. 2010-175765, which recognizes a word string from a voice and outputs the result of the recognition.

セグメント分割手段12は、音声認識手段11で音声認識された単語列を、予め定めた基準で分割するものである。以下、セグメント分割手段12で生成された分割結果のそれぞれのかたまり(単語列)をセグメントとよぶ。
セグメント分割手段12が用いる分割の基準は、任意の基準を予め定めることができる。例えば、分割の基準として、音声の無音区間を用いることができる。この場合、セグメント分割手段12は、音声認識結果の時間情報を利用して、単語間の時間間隔が予め定めた時間以上存在した場合は無音区間と判定し、無音区間の前後で分割する。
The segment division means 12 divides, according to a predetermined criterion, the word string recognized by the speech recognition means 11. Hereinafter, each group (word string) generated as a result of the division by the segment division means 12 will be called a segment.
The division criterion used by the segment division means 12 can be any predetermined criterion. For example, a silent section of speech can be used as the division criterion. In this case, the segment division means 12 uses time information of the speech recognition result to determine that a silent section exists when the time interval between words is equal to or longer than a predetermined time, and divides the speech into before and after the silent section.

また、例えば、分割の基準として、映像のカット点を用いることができる。この場合、セグメント分割手段12は、コンテンツ情報記憶手段15に記憶されている映像から、隣接するフレームの画像特徴が予め定めた基準よりも大きく異なるフレームをカット点として検出し、カット点の時間の前後で認識結果を分割する。 Also, for example, a cut point in the video can be used as a division criterion. In this case, the segment division means 12 detects frames as cut points from the video stored in the content information storage means 15, where the image features of adjacent frames differ more significantly than a predetermined criterion, and divides the recognition result into a time before and after the cut point.

また、例えば、分割の基準として、コンテンツに予め付加されているメタ情報を用いてもよい。メタ情報としては、GPS(Global Positioning System)の位置情報(ジオタグ)等がある。この場合、セグメント分割手段12は、位置情報によって、コンテンツを撮影または集音した場所が異なっている時点で、認識結果を分割する。 Also, for example, meta information previously added to the content may be used as a division criterion. Meta information may be location information (geotag) from the Global Positioning System (GPS). In this case, the segment division means 12 divides the recognition result at the point where the location where the content was photographed or audio was collected differs depending on the location information.

セグメント分割手段12は、分割したセグメントを、未認識区間分割手段13およびセグメント内情報抽出手段14に出力する。また、セグメント分割手段12は、セグメントごとに、単語とその時間情報とをコンテンツ情報記憶手段15に書き込み記憶する。 The segment division means 12 outputs the divided segments to the unrecognized section division means 13 and the intra-segment information extraction means 14. In addition, the segment division means 12 writes and stores the words and their time information for each segment in the content information storage means 15.

未認識区間分割手段13は、セグメント分割手段12で分割されたセグメントごとに、認識されなかった音声の未認識区間を、予め定めた時間間隔で分割し、当該時間間隔ごとに未認識を示す予め定めた記号と当該記号に対応する時間情報とを対応付けるものである。
ここで、未認識区間とは、無音、音量が極端に低い音声、音楽等の背景音が過大に重畳されている音声、認識対象ではない外国語等の音声、複数人が同時に発話した音声等で音声認識されなかった区間である。
未認識区間分割手段13は、音声認識手段11で認識された単語と時間情報とに基づいて、認識された単語から次の単語までの経過時間が予め定めた時間以上の区間を未認識区間として、順次分割する。また、未認識区間分割手段13は、セグメントの先頭から、認識された単語までの区間、あるいは、認識された単語の終了時間からセグメントの最後までの区間を、未認識区間として、順次分割する。
The unrecognized section dividing means 13 divides the unrecognized sections of unrecognized speech into predetermined time intervals for each segment divided by the segment dividing means 12, and associates a predetermined symbol indicating unrecognized speech with time information corresponding to the symbol for each time interval.
Here, an unrecognized section is a section that is not recognized as speech, such as silence, speech with extremely low volume, speech with excessive background noise such as music superimposed, speech in a foreign language that is not the target of recognition, or speech produced by multiple people speaking simultaneously.
The unrecognized section dividing means 13 sequentially divides a section in which the elapsed time from a recognized word to the next word is equal to or longer than a predetermined time as an unrecognized section, based on the words recognized by the speech recognition means 11 and the time information. The unrecognized section dividing means 13 also sequentially divides a section from the beginning of a segment to a recognized word, or from the end time of a recognized word to the end of the segment, as an unrecognized section.

未認識区間分割手段13は、未認識区間について、予め定めた時間間隔(例えば、2秒)ごとに、分割した未認識区間を示す記号(未認識区間記号)とその開始時間および時間長を時間情報として、認識単語と同様に、コンテンツ情報記憶手段15に書き込み記憶する。
未認識区間記号は、音声認識結果として用いられる文字以外の予め定めた文字であれば何でもよく、例えば、“>”等の記号を用いることができる。
The unrecognized section division means 13 writes and stores, in the content information storage means 15, a symbol indicating the divided unrecognized section (unrecognized section symbol) and its start time and length as time information for the unrecognized section at predetermined time intervals (e.g., 2 seconds), in the same manner as recognized words.
The unrecognized section symbol may be any predetermined character other than the characters used as the voice recognition result, for example, a symbol such as ">".

セグメント内情報抽出手段14は、セグメント分割手段12で分割されたセグメントごとに、当該セグメントに含まれる特徴単語を抽出するものである。
この特徴単語は、セグメント内に含まれる特徴的な単語である。例えば、セグメント内情報抽出手段14は、TF-IDF法(TF:Term Frequency、単語の出現頻度、IDF:Inverse Document Frequency、逆文書頻度)によりセグメントを特徴付ける単語を抽出する。TF-IDFは、文書(本実施形態では、セグメント)中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。
なお、セグメント内情報抽出手段14は、セグメントに含まれる未認識区間記号については、特徴単語を抽出する演算からは除外する。
具体的には、セグメント内情報抽出手段14は、セグメントs内の単語wの出現頻度tf(w,s)を、以下の式(1)で算出する。
The intra-segment information extraction means 14 extracts characteristic words contained in each segment divided by the segment division means 12 .
The characteristic words are characteristic words contained in the segment. For example, the intra-segment information extraction means 14 extracts words that characterize the segment using the TF-IDF method (TF: Term Frequency, word occurrence frequency; IDF: Inverse Document Frequency). TF-IDF is a type of weighting for words in a document (segment in this embodiment), and is mainly used in fields such as information retrieval and text summarization.
The intra-segment information extraction means 14 excludes unrecognized interval symbols contained in a segment from the calculation for extracting characteristic words.
Specifically, the intra-segment information extraction means 14 calculates the occurrence frequency tf(w, s) of a word w in a segment s using the following formula (1).

Figure 0007481863000001
Figure 0007481863000001

この式(1)で、nw,sは、ある単語w(未認識区間記号は除く;以下同じ)のセグメントs内での出現回数、Σt∈st,sは、セグメントs内のすべての単語の出現回数の和を示す。
また、セグメント内情報抽出手段14は、ある単語wの逆文書頻度idf(w)を、以下の式(2)で算出する。
In this formula (1), n w,s indicates the number of occurrences of a word w (excluding unrecognized interval symbols; the same applies below) in a segment s, and Σ t ∈ s n t,s indicates the sum of the number of occurrences of all words in the segment s.
Furthermore, the intra-segment information extraction means 14 calculates the inverse document frequency idf(w) of a certain word w by the following formula (2).

Figure 0007481863000002
Figure 0007481863000002

この式(2)で、Nは、コンテンツ内の全セグメント数、df(w)は、ある単語wが出現するコンテンツのセグメントの数(総セグメント数〔総文書数〕)を示す。
そして、セグメント内情報抽出手段14は、セグメント内の各単語について、以下の式(3)に示すように、式(1)のtf値と式(2)のidf値との積が最も大きい単語、あるいは、予め定めた基準値よりも大きい単語を、当該セグメントの特徴単語とする。
In this formula (2), N is the total number of segments in the content, and df(w) is the number of segments in the content in which a certain word w appears (total number of segments [total number of documents]).
Then, for each word in the segment, the segment information extraction means 14 determines the word with the largest product of the tf value in equation (1) and the idf value in equation (2) as shown in the following equation (3), or a word with a product greater than a predetermined reference value, as the characteristic word of the segment.

Figure 0007481863000003
Figure 0007481863000003

セグメント内情報抽出手段14は、抽出した特徴単語を、セグメントに対応付けてコンテンツ情報記憶手段15に書き込み記憶する。
なお、セグメント内情報抽出手段14は、TF-IDF法を用いずに、セグメントを形態素解析し、名詞や固有名詞を特徴単語として抽出することとしてもよい。
The intra-segment information extraction means 14 writes and stores the extracted characteristic words in the content information storage means 15 in association with the segments.
The intra-segment information extraction means 14 may perform morphological analysis on the segment without using the TF-IDF method, and extract nouns and proper nouns as characteristic words.

また、セグメント内情報抽出手段14は、コンテンツが映像を含んでいる場合、特徴単語以外に、セグメントに対応する時間区間の映像からサムネイル画像を抽出してもよい。例えば、セグメント内情報抽出手段14は、セグメントに対応する時間区間の映像の先頭フレームをサムネイル画像として抽出する。セグメント内情報抽出手段14は、抽出したサムネイル画像を、セグメントに対応付けてコンテンツ情報記憶手段15に書き込み記憶する。 In addition, when the content includes video, the intra-segment information extraction means 14 may extract thumbnail images from the video in the time period corresponding to the segment in addition to the characteristic words. For example, the intra-segment information extraction means 14 extracts the first frame of the video in the time period corresponding to the segment as a thumbnail image. The intra-segment information extraction means 14 writes and stores the extracted thumbnail image in the content information storage means 15 in association with the segment.

コンテンツ情報記憶手段(記憶手段)15は、音声認識の誤りを修正する対象となるコンテンツと、コンテンツをセグメントに分割した各種情報とを記憶するものである。このコンテンツ情報記憶手段15は、ハードディスク、半導体メモリ等の一般的な記憶媒体で構成することができる。 The content information storage means (storage means) 15 stores the content for which voice recognition errors are to be corrected, and various pieces of information obtained by dividing the content into segments. This content information storage means 15 can be configured with a general storage medium such as a hard disk or semiconductor memory.

ここで、図3~図5を参照(適宜図2参照)して、コンテンツ情報記憶手段15が記憶するコンテンツ情報について具体的に説明する。
図3に示すように、コンテンツ情報記憶手段15は、音声認識誤りを修正する対象となるコンテンツ(映像・音声)Conを記憶する。コンテンツ(映像・音声)Conは、コンテンツ入力手段10によって、記憶されたものである。
Here, the content information stored in the content information storage unit 15 will be specifically described with reference to FIGS. 3 to 5 (and also with reference to FIG. 2 as appropriate).
3, the content information storage means 15 stores the content (video and audio) Con for which a speech recognition error is to be corrected. The content (video and audio) Con is stored by the content input means 10.

また、図3に示すように、コンテンツ情報記憶手段15は、コンテンツConごとに、音声認識情報Recとセグメント情報Segとを対応付けて記憶する。なお、コンテンツConには、当該コンテンツConの識別情報(ID等)および時間情報を付加(不図示)しておく。時間情報は、予め定めた基準時間であって、例えば、音声認識誤り修正支援装置1に入力された時間(入力開始時間(年月日時分等))等である。 As shown in FIG. 3, the content information storage means 15 stores voice recognition information Rec and segment information Seg in association with each other for each content Con. The content Con is provided with identification information (such as an ID) and time information (not shown). The time information is a predetermined reference time, such as the time input to the voice recognition error correction assistance device 1 (input start time (year, month, day, hour, minute, etc.)).

音声認識情報Recは、音声認識手段11で認識され、対応付けられた単語および時間情報である。なお、音声認識情報Recには、未認識区間分割手段13で分割された未認識区間の記号(未認識区間記号)についても、単語と同様に時間情報を対応付けられている。
例えば、図4に示すように、音声認識情報Recは、コンテンツを識別する識別情報(コンテンツ識別情報)に対応付けて、単語wごとに、時間情報tと修正フラグfとを対応付ける。ここで、修正フラグfは、修正端末2によって修正が加えられたか否かを示す情報である(例えば、修正あり“1”、修正なし“0”)。
なお、図4中、単語wの欄の記号“>”は、未認識区間を予め定めた時間(ここでは、2秒)で分割した区間に対応付けた記号(未認識区間記号)を示す。
The speech recognition information Rec includes words and time information that are recognized and associated by the speech recognition means 11. Note that the speech recognition information Rec also includes time information associated with symbols of unrecognized sections (unrecognized section symbols) divided by the unrecognized section division means 13, in the same manner as with words.
4, the voice recognition information Rec associates time information t with a correction flag f for each word w in association with identification information for identifying the content (content identification information). Here, the correction flag f is information indicating whether or not a correction has been made by the editing terminal 2 (for example, "1" for correction, "0" for no correction).
In FIG. 4, the symbol ">" in the word w column indicates a symbol (unrecognized section symbol) associated with a section obtained by dividing the unrecognized section by a predetermined time (here, 2 seconds).

セグメント情報Segは、音声認識情報Recを、セグメント分割手段12でセグメントに分割した内容を示す情報である。
例えば、図5に示すように、セグメント情報Segは、コンテンツ識別情報に対応付けて、個々のセグメントを識別する識別情報(番号等)ごとに、開始時間tsと、終了時間teと、特徴単語kと、サムネイル画像gとを対応付ける。
ここで、開始時間tsおよび終了時間teは、セグメントの時間区間を示す。特徴単語kは、セグメント内情報抽出手段14が抽出した単語である。サムネイル画像gは、セグメント内情報抽出手段14が当該セグメントの先頭の時間情報に対応した、コンテンツの映像から抽出したフレーム画像である。
The segment information Seg is information indicating the contents of the segments into which the voice recognition information Rec is divided by the segment division means 12 .
For example, as shown in Figure 5, segment information Seg corresponds to content identification information, and for each identification information (such as a number) that identifies an individual segment, a start time ts, an end time te, a characteristic word k, and a thumbnail image g.
Here, the start time ts and the end time te indicate the time interval of the segment. The characteristic word k is a word extracted by the intra-segment information extraction means 14. The thumbnail image g is a frame image extracted from the video of the content by the intra-segment information extraction means 14, which corresponds to the time information of the start of the segment.

なお、図3の例では、コンテンツCon3については、音声認識がすべて終了しておらず、セグメント情報Segが確定していない状態を示している。
また、ここでは、コンテンツConと、音声認識情報Recおよびセグメント情報Segとを、同一の記憶手段に記憶しているが、別々の記憶手段に記憶することとしてもよい。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
In the example of FIG. 3, the voice recognition for content Con3 has not been completed and the segment information Seg has not been finalized.
Also, here, the content Con, the voice recognition information Rec, and the segment information Seg are stored in the same storage means, but they may be stored in separate storage means.
Returning to FIG. 2, the configuration of the speech recognition error correction assistance device 1 will be further described.

編集手段16は、外部に接続された修正端末2を用いて、作業者が、コンテンツ情報記憶手段15に記憶されている音声認識結果を修正するものである。この編集手段16は、複数の修正端末2ごとに複数存在する。なお、編集手段16は、修正端末2に対する1つのプロセスとして動作し、修正端末2が接続されるたびに、プロセスが複製される構成であっても構わない。
編集手段16は、図2に示すように、修正対象選択手段160と、編集画面制御手段161と、誤り修正手段162と、映像/音声再生手段163と、修正結果出力手段164と、を備える。
The editing means 16 allows an operator to use an externally connected editing terminal 2 to edit the voice recognition results stored in the content information storage means 15. A plurality of editing means 16 exist for each of the editing terminals 2. The editing means 16 operates as one process for the editing terminal 2, and the process may be duplicated every time an editing terminal 2 is connected.
As shown in FIG. 2, the editing means 16 includes a correction target selection means 160, an editing screen control means 161, an error correction means 162, an image/audio reproduction means 163, and a correction result output means 164.

修正対象選択手段160は、音声認識誤りを修正する対象のコンテンツを選択するものである。修正対象選択手段160は、修正端末2に修正対象のコンテンツを選択する画面を表示し、修正端末2からの選択を受け付ける。
ここで、図6を参照して、コンテンツを選択する画面の一例を説明する。例えば、修正対象選択手段160は、図6(a)に示すような選択画面30を表示する。
The correction target selection means 160 selects the target content for correcting the speech recognition error. The correction target selection means 160 displays a screen for selecting the target content for correction on the editing terminal 2 and accepts the selection from the editing terminal 2.
An example of a screen for selecting content will now be described with reference to Fig. 6. For example, the correction target selection means 160 displays a selection screen 30 as shown in Fig. 6(a).

選択画面30は、時間区間を特定することで、修正対象となるコンテンツを特定する画面である。選択画面30は、時間設定領域301と、現時間設定ボタン302と、修正開始ボタン303と、を備える。 The selection screen 30 is a screen for specifying the content to be modified by specifying a time period. The selection screen 30 includes a time setting area 301, a current time setting button 302, and a modification start button 303.

時間設定領域301は、開始時刻および終了時刻を設定する領域である。例えば、時間設定領域301は、年月日、時、分をそれぞれ設定するリストボックスとする。この時間設定領域301は、例えば、図6(b)に示すように、ボタン301aを押下されることで、候補となるリストをスクロールバー301b付きで表示する。時、分についても同様である。この開始時刻と終了時刻とによって、修正対象となるコンテンツが特定される。 The time setting area 301 is an area for setting the start time and end time. For example, the time setting area 301 is a list box for setting the date, hour, and minute. For example, as shown in FIG. 6(b), this time setting area 301 displays a list of candidates with a scroll bar 301b when button 301a is pressed. The same applies to the hours and minutes. The content to be modified is identified by the start time and end time.

現時間設定ボタン302は、現在の時刻から現在入力中(あるいは、それ以降)のコンテンツを修正対象とするための設定ボタンである。
例えば、図6(c)に示すように、現時間設定ボタン302を押下されることで、開始時刻に現時刻を設定し、終了時刻を指定しないこととし、現在の時刻から現在入力中(あるいは、それ以降)のコンテンツを修正対象とする。
修正開始ボタン303は、時間設定領域301または現時間設定ボタン302により時刻を設定した後、修正対象となるコンテンツの修正を開始するためのボタンである。
The current time setting button 302 is a setting button for setting the content currently being input (or the content thereafter) from the current time as the object of correction.
For example, as shown in FIG. 6(c), by pressing the current time setting button 302, the start time is set to the current time, the end time is not specified, and the content currently being input from the current time (or thereafter) is made the subject of correction.
The start modification button 303 is a button for starting modification of the content to be modified after the time is set in the time setting area 301 or the current time setting button 302 .

ここで、図7を参照して、修正対象選択手段160で選択された開始時刻および終了時刻で特定されるコンテンツの時間区間について説明する。
図7は、本日のn日(予め定めた日数)前から本日までの時間を時系列で示したものである。
Now, with reference to FIG. 7, a description will be given of the time period of the content specified by the start time and end time selected by the correction target selection means 160.
FIG. 7 shows a time series from n days (a predetermined number of days) before today to today.

時間区間T1は、本日から2日前のある時刻を開始時刻とし、本日から1日前のある時刻を終了時刻としたときの例である。なお、時間区間T1は、開始時刻については、設定された時刻よりも予め定めた時間bt(例えば、数十秒~数分)だけ早い時刻とする。これによって、修正端末2の作業者は、実際に修正を行う時点よりも前の音声を確認することが可能になる。 Time section T1 is an example in which the start time is a time two days before today, and the end time is a time one day before today. Note that the start time of time section T1 is a time that is a predetermined time bt (for example, several tens of seconds to several minutes) earlier than the set time. This allows the operator of editing terminal 2 to check the audio from before the time of actual editing.

時間区間T2は、コンテンツ情報記憶手段15に記憶されているコンテンツの最も古い日で、開始時刻と終了時刻とを設定したときの例である。時間区間T2は、設定された時刻よりも予め定めた時間btだけ早い時間のコンテンツが存在しない場合、開示時刻を、最も古いコンテンツに対応する時刻とする。 Time interval T2 is an example of the oldest day of content stored in the content information storage means 15, and the start time and end time are set. If there is no content that is a predetermined time bt earlier than the set time, the disclosure time for time interval T2 is set to the time corresponding to the oldest content.

時間区間T3は、本日のある時刻が開始時刻として設定され、終了時刻が設定されていない場合の例である。時間区間T3も、設定された時刻よりも予め定めた時間btだけ早い時刻を開始時刻とする。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
修正対象選択手段160は、設定されたコンテンツのファイル名等の識別情報を、編集画面制御手段161に出力する。
The time interval T3 is an example in which a certain time today is set as the start time and an end time is not set. The time interval T3 also has a start time that is a predetermined time bt earlier than the set time.
Returning to FIG. 2, the configuration of the speech recognition error correction assistance device 1 will be further described.
The correction object selection means 160 outputs identification information such as the file name of the set content to the edit screen control means 161 .

編集画面制御手段161は、コンテンツの音声の認識結果を構成する単語と未認識区間の予め定めた時間間隔ごとの記号とを含んだ編集画面を修正端末2に表示するものである。ここでは、編集画面制御手段161は、セグメントごとに、特徴単語と当該セグメントに含まれる単語列(単語、未認識区間記号)を表示するか否かを指定する選択ボタンとを表示し、選択ボタンの押下により、セグメントの単語列を表示するか否かを制御する。 The editing screen control means 161 displays an editing screen on the editing terminal 2 that includes the words that constitute the speech recognition results of the content and symbols for each predetermined time interval of the unrecognized section. Here, the editing screen control means 161 displays, for each segment, a selection button that specifies whether or not to display the characteristic words and the word strings (words, unrecognized section symbols) included in the segment, and controls whether or not to display the word strings of the segment by pressing the selection button.

ここで、図8および図9を参照(適宜図2参照)して、編集画面制御手段161が表示する画面例について、その制御内容とともに説明する。
図8に示すように、編集画面制御手段161は、編集画面制御手段161に対応する修正端末2の画面上にセグメント一覧画面31を表示する。
Here, with reference to FIG. 8 and FIG. 9 (and also with reference to FIG. 2 as appropriate), examples of screens displayed by the edit screen control means 161 will be described together with the contents of control thereof.
As shown in FIG. 8, the editing screen control means 161 displays a segment list screen 31 on the screen of the editing terminal 2 corresponding to the editing screen control means 161 .

セグメント一覧画面31は、選択ボタン311と、特徴単語表示欄312と、サムネイル画像表示領域313と、タイムテーブル表示欄314と、スクロールバー表示欄315と、修正結果取得ボタン316と、で構成される。 The segment list screen 31 is composed of a selection button 311, a characteristic word display field 312, a thumbnail image display area 313, a timetable display field 314, a scroll bar display field 315, and a correction result acquisition button 316.

選択ボタン311は、セグメントごとに単語列を表示するか否かの選択を行うボタンである。
特徴単語表示欄312は、セグメント内で抽出された特徴単語を表示する領域である。編集画面制御手段161は、コンテンツ情報記憶手段15から、当該セグメントに対応する特徴単語(図5の特徴単語k)を読み出して、特徴単語表示欄312に表示する。なお、ライブ素材など、現在入力中でセグメント情報が確定していない場合、編集画面制御手段161は、特徴単語表示欄312を空欄とする。
The selection button 311 is a button for selecting whether or not to display a word string for each segment.
The characteristic word display column 312 is an area for displaying characteristic words extracted from a segment. The editing screen control means 161 reads out a characteristic word (characteristic word k in FIG. 5 ) corresponding to the segment from the content information storage means 15 and displays it in the characteristic word display column 312. Note that when segment information is not yet finalized because it is currently being input, such as in the case of live material, the editing screen control means 161 leaves the characteristic word display column 312 blank.

サムネイル画像表示領域313は、セグメント内で抽出されたサムネイル画像を表示する領域である。編集画面制御手段161は、コンテンツ情報記憶手段15から、当該セグメントに対応するサムネイル画像(図5のサムネイル画像g)を読み出して、サムネイル画像表示領域313に表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段161は、対応するコンテンツの先頭フレームをサムネイル画像として表示する。 The thumbnail image display area 313 is an area for displaying thumbnail images extracted from within a segment. The editing screen control means 161 reads out a thumbnail image (thumbnail image g in FIG. 5) corresponding to the segment from the content information storage means 15 and displays it in the thumbnail image display area 313. Note that if the segment information corresponding to the content has not been determined, the editing screen control means 161 displays the first frame of the corresponding content as a thumbnail image.

タイムテーブル表示欄314は、コンテンツの時間軸上におけるセグメント位置を示すタイムテーブルを表示する欄である。編集画面制御手段161は、コンテンツ情報記憶手段15のセグメントの時間情報(図5の開始時間tsおよび終了時間te)を参照して、タイムテーブルを生成し表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段161は、対応するコンテンツの先頭の単語と最後の単語の時間情報t(図4参照)を参照する。
スクロールバー表示欄315は、セグメント一覧が画面に収まらない場合に、どの部分のセグメントを表示しているのかを示すスクロールバーを表示する欄である。編集画面制御手段161は、スクロールバーの上下によって、画面上のセグメント一覧を更新する。
The timetable display field 314 is a field for displaying a timetable showing the segment positions on the time axis of the content. The editing screen control means 161 generates and displays a timetable by referring to the segment time information (start time ts and end time te in FIG. 5) in the content information storage means 15. If the segment information corresponding to the content has not been determined, the editing screen control means 161 refers to the time information t (see FIG. 4) of the first and last words of the corresponding content.
The scroll bar display field 315 is a field for displaying a scroll bar that indicates which part of the segment is being displayed when the segment list does not fit on the screen. The editing screen control unit 161 updates the segment list on the screen by moving the scroll bar up and down.

修正結果取得ボタン316は、修正対象選択手段160で選択した修正対象のコンテンツに対する修正結果を要求するボタンである。修正結果取得ボタン316を押下された場合、編集画面制御手段161は、修正対象選択手段160で選択された修正対象のコンテンツの識別情報(コンテンツ識別情報)を修正結果出力手段164に出力する。
このように、セグメント一覧画面31を表示することで、作業者は、セグメントを確認することができ、一度に音声認識結果を表示する場合に比べて、音声認識結果を確認したいセグメントを容易に選択することができる。
The correction result acquisition button 316 is a button for requesting the correction result for the content to be corrected selected by the correction target selection means 160. When the correction result acquisition button 316 is pressed, the editing screen control means 161 outputs identification information (content identification information) of the content to be corrected selected by the correction target selection means 160 to the correction result output means 164.
In this way, by displaying the segment list screen 31, the worker can check the segments and can easily select the segment for which he or she wants to check the voice recognition results, compared to when the voice recognition results are displayed all at once.

このセグメント一覧画面31において、作業者が行う修正端末2のマウスのクリック、あるいは、タッチパネルへのタッチによる選択ボタン(図8中、「open」)311の押下により、編集画面制御手段161は、セグメント一覧画面31において、セグメントの単語列の修正を行う編集領域317(図9参照)を表示する。 When the worker clicks the mouse on the editing terminal 2 or touches the touch panel to press the selection button ("open" in Figure 8) 311 on this segment list screen 31, the editing screen control means 161 displays an editing area 317 (see Figure 9) on the segment list screen 31 where the word string of the segment can be edited.

図9は、編集領域317を表示したセグメント一覧画面31Bを示す画面例である。
このセグメント一覧画面31Bには、図8で説明したセグメント一覧画面31に対して、選択されたセグメントにおいて、動画表示領域313Bと、編集領域317とが表示される。
FIG. 9 is an example of a screen showing a segment list screen 31B on which an editing area 317 is displayed.
In contrast to the segment list screen 31 described with reference to FIG. 8, this segment list screen 31B displays a moving image display area 313B and an editing area 317 for the selected segment.

動画表示領域313Bは、セグメントに対応するコンテンツを再生する領域である。編集画面制御手段161は、当該セグメントが選択されたタイミングで、コンテンツ情報記憶手段15のセグメントの時間情報(図5の開始時間tsおよび終了時間te)を参照して、対応するコンテンツの映像区間の先頭フレームを動画表示領域313Bに表示する。なお、コンテンツに対応するセグメント情報が確定していない場合、編集画面制御手段161は、対応するコンテンツの先頭の単語の時間情報t(図4参照)を参照して、対応するコンテンツの先頭フレームを動画表示領域313Bに表示する。
この動画表示領域313Bの画像領域をマウス等でクリック、あるいは再生開始ボタンstを押下されることで、編集画面制御手段161は、映像/音声再生手段163に当該コンテンツの再生を指示する。
The video display area 313B is an area in which the content corresponding to the segment is played back. When the segment is selected, the editing screen control means 161 refers to the time information of the segment (start time ts and end time te in FIG. 5 ) in the content information storage means 15, and displays the first frame of the video section of the corresponding content in the video display area 313B. If the segment information corresponding to the content has not been finalized, the editing screen control means 161 refers to the time information t of the first word of the corresponding content (see FIG. 4 ), and displays the first frame of the corresponding content in the video display area 313B.
When the image area of this video display area 313B is clicked with a mouse or the like, or when the playback start button st is pressed, the editing screen control means 161 instructs the video/audio playback means 163 to play back the content.

編集領域317は、セグメントに対応する単語列を表示し、修正等の編集を行う領域である。編集画面制御手段161は、編集領域317に、コンテンツ情報記憶手段15に記憶されている当該セグメントに対応する単語列を展開する。
このとき、編集画面制御手段161は、セグメントに対応する単語として、認識された単語以外に未認識区間記号(“>”)SCを表示する。図9の例では、未認識区間記号(“>”)が11個連続している。これは未認識区間が11個に分割されたことを示しているため、予め定めた時間間隔が2秒であれば、音声認識で認識されなかった時間が少なくとも22秒間は続いていることがわかる。これによって、音声認識誤り修正支援装置1は、音声中に、未認識区間が存在することやその未認識区間がどの程度継続しているかを、作業者に認識させることができるとともに、未認識区間を編集対象とすることができる。
The editing area 317 is an area for displaying a word string corresponding to a segment and for performing editing such as correction. The editing screen control means 161 expands in the editing area 317 the word string corresponding to the segment stored in the content information storage means 15.
At this time, the editing screen control means 161 displays an unrecognized section symbol (">") SC as a word corresponding to the segment in addition to the recognized words. In the example of FIG. 9, there are 11 consecutive unrecognized section symbols (">"), which indicates that the unrecognized section is divided into 11 sections, and therefore if the predetermined time interval is 2 seconds, it can be seen that the time during which speech recognition was not successful lasted for at least 22 seconds. In this way, the speech recognition error correction assistance device 1 can make the operator aware of the presence of an unrecognized section in the speech and how long the unrecognized section continues, and can also make the unrecognized section a target for editing.

なお、編集画面制御手段161は、編集領域317を表示している場合、音声認識情報Rec(図3参照)の単語が追加されるたびに、逐次、表示する文字列を追加する。これに伴い、編集画面制御手段161は、編集領域317を拡大していく。これによって、音声認識誤り修正支援装置1は、リアルタイムにコンテンツの音声認識に対する誤りを修正することができる。
編集領域317の編集は、後記する誤り修正手段162によって行われる。なお、編集領域317において任意の単語をマウス等でクリックされることで、編集画面制御手段161は、クリックされた単語の時間に対応するコンテンツの再生を映像/音声再生手段163に指示する。
また、編集画面制御手段161は、選択ボタン(図9中、「close」)311の押下により、編集領域317を非表示とし、動画表示領域313Bをサムネイル画像表示領域313として、図8のセグメント一覧画面31に表示を戻す。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
When the editing area 317 is displayed, the editing screen control means 161 adds a character string to be displayed each time a word is added to the voice recognition information Rec (see FIG. 3). Accordingly, the editing screen control means 161 expands the editing area 317. This allows the voice recognition error correction assistance device 1 to correct errors in the voice recognition of the content in real time.
Editing of the editing area 317 is performed by the error correction means 162 described later. When an arbitrary word in the editing area 317 is clicked with a mouse or the like, the editing screen control means 161 instructs the video/audio playback means 163 to play back the content corresponding to the time of the clicked word.
Furthermore, when the selection button ('close' in FIG. 9) 311 is pressed, the editing screen control unit 161 makes the editing area 317 invisible, changes the moving image display area 313B to the thumbnail image display area 313, and returns the display to the segment list screen 31 of FIG.
Returning to FIG. 2, the configuration of the speech recognition error correction assistance device 1 will be further described.

誤り修正手段162は、修正端末2の作業者の編集操作により、編集領域317(図9)において、セグメントの単語列の誤りを修正するものである。この誤り修正手段162は、単語列を修正する編集動作においては、一般的なテキストエディタ(スクリーンエディタ)として機能する。したがって、単語列の誤りを修正するだけでなく、その場の状況、感想等をコメントとして付加することもできる。また、未認識区間記号は単なる単語として、他の単語列と全く同じように編集することができる。
また、誤り修正手段162は、修正内容を、他の修正端末2に対応する編集手段16(別プロセスで起動した編集手段)に対して通知することで、他の修正端末2の編集領域317に反映させる。逆に、他の編集手段16から修正内容を通知された場合、誤り修正手段162は、自身の修正端末2の編集領域317に修正内容を反映させる。
The error correcting means 162 corrects errors in the word string of the segment in the editing area 317 (FIG. 9) through editing operations by the operator of the editing terminal 2. This error correcting means 162 functions as a general text editor (screen editor) in the editing operation of correcting the word string. Therefore, in addition to correcting errors in the word string, it is also possible to add comments on the situation, impressions, etc. at the time. Moreover, the unrecognized section symbol can be edited as a simple word in exactly the same way as other word strings.
Moreover, the error correcting means 162 notifies the editing means 16 (editing means started by a different process) corresponding to the other editing terminal 2 of the correction content, thereby causing the correction content to be reflected in the editing area 317 of the other editing terminal 2. Conversely, when the error correcting means 162 is notified of the correction content from the other editing means 16, the error correcting means 162 causes the correction content to be reflected in the editing area 317 of its own editing terminal 2.

この誤り修正手段162は、修正が行われた場合、音声認識情報Rec(図4)の単語を上書きして修正するとともに、修正フラグfをセットする。この誤り修正手段162は、他の編集手段16の誤り修正手段162が同じ修正対象に対して修正を行う場合でも、上書き(後書き優先)で更新することで、複雑な排他制御を行わないこととする。
また、誤り修正手段162は、単語の置換ではなく、単語を削除あるいは挿入することもできる。誤り修正手段162は、単語を削除する場合、音声認識情報Rec(図4)の対応する単語の行を削除する。また、誤り修正手段162は、単語を挿入する場合、挿入位置に最も近い(挿入単語の直前または直後)の単語と結合し、音声認識情報Rec(図4)において、挿入位置に最も近い単語と同じ行の単語と結合した単語(単語列)で置き換え、修正フラグfをセットする。
なお、この誤り修正手段162における単語列の修正処理は、未認識区間記号についても同様である。
When a correction is made, the error correction means 162 overwrites the word in the speech recognition information Rec (FIG. 4) to correct it, and sets the correction flag f. Even when the error correction means 162 of another editing means 16 corrects the same correction target, the error correction means 162 updates by overwriting (with postscript taking priority), thereby avoiding complex exclusive control.
The error correction means 162 can also delete or insert a word instead of replacing the word. When deleting a word, the error correction means 162 deletes the row of the corresponding word in the speech recognition information Rec (FIG. 4). When inserting a word, the error correction means 162 combines the word with the word closest to the insertion position (immediately before or immediately after the inserted word), replaces the word with a word (word string) combined with the word in the same row as the word closest to the insertion position in the speech recognition information Rec (FIG. 4), and sets the correction flag f.
The word string correction process in the error correction means 162 is also performed on unrecognized section symbols in the same manner.

そして、誤り修正手段162は、他の編集手段16に対して修正を行ったことを通知することで、対応する誤り修正手段162が、音声認識情報Rec(図4)を参照して、修正内容を反映させる。あるいは、誤り修正手段162は、変更前の単語と変更後の単語や、削除された単語、あるいは、挿入された単語を通知することとしてもよい。
このとき、誤り修正手段162は、修正が行われた単語を修正が行われていない単語とは異なる色属性(例えば、赤色)で表示する。
これによって、誤り修正手段162は、他の修正端末2で修正された内容を作業者に視認させることができる。
Then, the error correction means 162 notifies the other editing means 16 that the correction has been made, so that the corresponding error correction means 162 reflects the correction content by referring to the speech recognition information Rec (FIG. 4). Alternatively, the error correction means 162 may notify the word before and after the change, the word that has been deleted, or the word that has been inserted.
At this time, the error correcting means 162 displays the corrected words in a color attribute (for example, red) different from that of the uncorrected words.
This enables the error correcting means 162 to allow the worker to visually confirm the contents corrected at the other editing terminal 2.

例えば、図10に示すように、編集領域317において、同じ修正対象を異なる修正端末2,2で修正が行われるとする。
この場合、図10(a)に示すように、修正端末2の作業者は、編集領域317において「京」を「今日」に修正する。また、図10(b)に示すように、修正端末2の作業者は、編集領域317において「ハタ」を「肌」に修正する。
そして、修正端末2,2に対応するそれぞれの誤り修正手段162が、それぞれの修正内容を通知しあうことで、他の修正端末で行った修正内容を反映させる。
これによって、修正状況が作業者全員に共有され、作業の競合を抑制して効率よく音声認識の誤りを修正することができる。
For example, as shown in FIG. 10, it is assumed that the same object to be edited is edited at different editing terminals 2 1 and 2 2 in an editing area 317 .
In this case, as shown in Fig. 10(a), the worker at editing terminal 21 corrects "Kyo" to "Kyo" in the editing area 317. Also, as shown in Fig. 10(b), the worker at editing terminal 22 corrects "Hata" to "Hada" in the editing area 317.
Then, the error correction means 162 corresponding to the editing terminals 2 1 and 2 2 notify each other of the correction contents, thereby reflecting the correction contents made in the other editing terminal.
This allows the correction status to be shared among all workers, suppressing conflicts among workers and enabling errors in speech recognition to be corrected efficiently.

また、誤り修正手段162は、単語列を修正する際に、音声を再生する機能を有する。
具体的には、誤り修正手段162は、編集領域317(図9)において、マウスのクリック、あるいは、タッチパネルへのタッチにより、選択された単語から音声を再生する。また、音声再生中、再度、任意の位置を選択されることで、誤り修正手段162は、音声の再生を停止する。
Moreover, the error correcting means 162 has a function of reproducing audio when correcting a word string.
Specifically, the error correction means 162 plays back audio from a word selected by clicking the mouse or touching the touch panel in the editing area 317 (FIG. 9). Also, when an arbitrary position is selected again during audio playback, the error correction means 162 stops the audio playback.

図11は、編集領域における編集作業の一例を説明するための説明図である。
例えば、図11の編集領域317において、マウスクリック等で「3月」が選択された場合、誤り修正手段162は、コンテンツ情報記憶手段15のセグメントに含まれる単語の時間情報(図4の時間情報t)を参照して、セグメントの対応する単語位置の時間から音声を再生するように、映像/音声再生手段163に指示する。なお、このとき、音声に連動して、動画表示領域313Bにおいて、音声再生の時間に対応する映像を再生することとしてもよい。
FIG. 11 is an explanatory diagram for explaining an example of an editing operation in the editing area.
For example, when "March" is selected by clicking the mouse in the editing area 317 in Fig. 11, the error correcting means 162 refers to the time information (time information t in Fig. 4) of the word included in the segment in the content information storage means 15, and instructs the video/audio reproducing means 163 to reproduce the audio from the time of the corresponding word position in the segment. At this time, in conjunction with the audio, a video corresponding to the audio reproduction time may be reproduced in the video display area 313B.

そして、誤り修正手段162は、図11に示すように、音声の再生位置とセグメント中の再生有無とを明示するように、音声の再生に連動して、再生される音声に対応する各単語の表示部分の表示属性を変更する。例えば、誤り修正手段162は、音声に対応する単語を、白黒反転または予め定めた色でカラー表示する。 Then, as shown in FIG. 11, the error correction means 162 changes the display attributes of the display portion of each word corresponding to the reproduced sound in conjunction with the reproduction of the sound so as to clearly indicate the reproduction position of the sound and whether or not the sound is being reproduced within the segment. For example, the error correction means 162 displays the words corresponding to the sound in black and white inversion or in a predetermined color.

また、例えば、図12に示すように、編集領域317において、マウスクリック等で未認識区間記号SCが選択された場合も、図11で説明した音声認識された単語と同様に、誤り修正手段162は、コンテンツ情報記憶手段15のセグメントに含まれる選択された位置の未認識区間記号の時間情報(図4の時間情報t)を参照して、セグメントの対応する単語位置の時間から音声を再生するように、映像/音声再生手段163に指示する。
これによって、作業者は、未認識区間であっても、音声を再生させる位置を指定することができる。
Also, for example, as shown in Figure 12, when an unrecognized section symbol SC is selected in the editing area 317 by clicking the mouse or the like, in the same manner as in the case of the voice-recognized word described in Figure 11, the error correction means 162 refers to the time information (time information t in Figure 4) of the unrecognized section symbol at the selected position contained in the segment in the content information storage means 15, and instructs the video/audio playback means 163 to play back the audio from the time of the corresponding word position in the segment.
This allows the operator to specify the position at which the audio is to be played back even in an unrecognized section.

また、作業者は、再生された音声や映像を確認し、作業者が音声を聞き取れた場合、図13に示すように、1以上の未認識区間記号SC(図12)を選択し、作業者が聞き取った置換文字列CCで置き換えることとしてもよい。
図13では、図12の11個連続した未認識区間記号(“>”)について、最初の3個の未認識区間記号をそのまま残し、続く3個の未認識区間記号を選択して「コートが必要でした。」という置換文字列CCに置き換え、さらに続く5個の未認識区間記号をそのまま残した例を示している。
予め定めた時間間隔が2秒であれば、6秒の未認識区間のあとに、「コートが必要でした」という音声があり、その後は未認識区間が続いていることを示している。例えば、音量が極端に低い音声や背景音が過大に重畳されて、音声認識手段11では音声認識できなかった部分を作業者が聞き取れた場合には、このように、聞き取れた時間に相当する未認識区間を選択して文字列を置換することが有効である。
なお、音声認識手段11で音声認識されなかった部分を作業者が聞き取れた場合でも、繰り返し同じ音声が流れている等、音声と文字列とのタイミングを合わせることがそれほど重要ではないと考えられる場合には、未認識区間記号(“>”)をそのまま残して、未認識区間記号(“>”)で特定される未認識区間の前後あるいは途中に文字列を追加してもよい。このようにすると、未認識区間の継続している長さは、未認識区間記号(“>”)の数として残ることになる。
In addition, the worker may check the played audio and video, and if the worker can hear the audio, as shown in FIG. 13, select one or more unrecognized section symbols SC (FIG. 12) and replace them with the replacement character string CC1 that the worker heard.
FIG. 13 shows an example in which, for the 11 consecutive unrecognized section symbols (">") in FIG. 12, the first three unrecognized section symbols are left as they are, the next three unrecognized section symbols are selected and replaced with a replacement character string CC1 , "A coat was needed.", and the next five unrecognized section symbols are left as they are.
If the predetermined time interval is 2 seconds, after the 6-second unrecognized section comes the voice "I needed a coat," which indicates that the unrecognized section continues after that. For example, if the worker hears a part that could not be recognized by the voice recognition means 11 due to an extremely low-volume voice or excessively overlapping background sound, it is effective to select the unrecognized section corresponding to the audible time and replace the character string in this way.
Incidentally, even if the worker can hear a portion that was not recognized by the voice recognition means 11, in cases where it is considered that matching the timing of the voice and the character string is not that important, such as when the same voice is being repeated, the unrecognized section symbol (">") may be left as it is, and a character string may be added before, after, or in the middle of the unrecognized section identified by the unrecognized section symbol (">". In this way, the length of the continuation of the unrecognized section remains as the number of unrecognized section symbols (">".

また、作業者は、図14に示すように、未認識区間記号(“>”)を選択し、その場の状況、感想等のコメントとなる置換文字列CCで置き換えることとしてもよい。
図14では、図12の11個連続した未認識区間記号(“>”)について、最初の3個の未認識区間記号をそのまま残し、続く3個の未認識区間記号を選択して「(編集コメント:山田)背景音に風の音あり」という置換文字列CCに置き換え、さらに続く5個の未認識区間記号をそのまま残した例を示している。
予め定めた時間間隔が2秒であれば、6秒の未認識区間のあとに、背景音に風の音がある状態であることを示している。また、このとき、置換文字列CCが、発話音声ではなく、コメントであること(図14では、「編集コメント」)や、誰がコメントを追加したか(図14では、作業者である山田)を追記しておくことが好ましい。
なお、コメントの文字列と音声とのタイミングがそれほど重要ではないと考えられる場合には、未認識区間記号(“>”)をそのまま残して、未認識区間記号(“>”)で特定される未認識区間の前後あるいは途中に文字列を追加してもよい。
このように、編集領域317において、作業者は、未認識区間記号(“>”)を、音声認識された結果の単語列と全く区別することなく扱うことができる。
図2に戻って、音声認識誤り修正支援装置1の構成について説明を続ける。
Also, as shown in FIG. 14, the worker may select the unrecognized section symbol (">") and replace it with a replacement character string CC2 that is a comment about the situation, impressions, or the like.
FIG. 14 shows an example in which, for the 11 consecutive unrecognized section symbols (">") in FIG. 12, the first three unrecognized section symbols are left as they are, the next three unrecognized section symbols are selected and replaced with a replacement character string CC2 , "(Editor's comment: Yamada) There is wind sound in the background," and the next five unrecognized section symbols are left as they are.
If the predetermined time interval is 2 seconds, this indicates that there is a wind sound in the background sound after a 6-second unrecognized section. In addition, it is preferable to add a note that the replacement character string CC2 is not a speech sound but a comment (in FIG. 14, "Editing comment") and who added the comment (in FIG. 14, the worker, Yamada).
In addition, if the timing between the comment string and the audio is not considered to be particularly important, the unrecognized section symbol (">") may be left as is, and text may be added before, after, or in the middle of the unrecognized section identified by the unrecognized section symbol (">").
In this way, in the editing area 317, the operator can treat the unrecognized section symbol (">") without distinguishing it from the word string resulting from speech recognition.
Returning to FIG. 2, the configuration of the speech recognition error correction assistance device 1 will be further described.

映像/音声再生手段163は、コンテンツの映像および音声を修正端末2に出力するものである。この映像/音声再生手段163は、編集画面制御手段161または誤り修正手段162により指定された位置に基づいて、コンテンツ情報記憶手段15から映像/音声を読み出して、修正端末2に出力する The video/audio reproducing means 163 outputs the video and audio of the content to the editing terminal 2. This video/audio reproducing means 163 reads the video/audio from the content information storage means 15 based on the position specified by the editing screen control means 161 or the error correction means 162, and outputs it to the editing terminal 2.

修正結果出力手段164は、誤り修正手段162で修正された音声認識結果(書き起こし結果)を、外部に出力するものである。
この修正結果出力手段164は、編集画面制御手段161から出力される修正対象のコンテンツに対する修正後の音声認識結果を、コンテンツ情報記憶手段15から読み出して、対応する修正端末2に出力する。
The correction result output means 164 outputs the speech recognition result (transcription result) corrected by the error correction means 162 to the outside.
The correction result output means 164 reads out the speech recognition result after correction for the content to be corrected, output from the editing screen control means 161 , from the content information storage means 15 , and outputs it to the corresponding editing terminal 2 .

例えば、修正結果出力手段164は、図15に示すように、タイトルTと、時間情報・特徴単語Kと、修正結果Wとを含んだテキストデータを生成する。なお、時間情報・特徴単語Kと、修正結果Wとは、セグメントの数だけ複数存在する。 For example, as shown in FIG. 15, the correction result output means 164 generates text data including a title T, time information/characteristic words K, and correction results W. Note that there are multiple pieces of time information/characteristic words K and correction results W, the number of which is equal to the number of segments.

タイトルTには、例えば、修正日を記載する。
時間情報・特徴単語Kには、例えば、セグメントの開始時間tsと、当該セグメントに対応付けられた特徴単語k(図5参照)を記載する。なお、現在入力中のコンテンツで、セグメント情報が確定していない場合、修正結果出力手段164は、時間情報には、先頭単語の時間情報t(図4参照)を記載し、特徴単語を空欄とする。
In the title T, for example, the revision date is written.
For example, the start time ts of the segment and the characteristic word k associated with the segment (see FIG. 5) are entered in the time information/characteristic word K. If the segment information is not finalized for the content currently being input, the correction result output means 164 enters the time information t of the first word (see FIG. 4) in the time information and leaves the characteristic word field blank.

修正結果Wには、例えば、セグメントに対応する修正後の単語w列(図4参照)を記載する。なお、現在入力中のコンテンツで、セグメント情報が確定していない場合、修正結果出力手段164は、現在入力中のコンテンツに対応する音声認識情報の現時点までの単語w列(図4参照)を記載する。
ただし、修正結果Wには、単語wのうち、未認識区間記号については記載を省くこととする。
For example, a corrected word w string (see FIG. 4) corresponding to the segment is entered in the correction result W. If the segment information is not finalized for the currently input content, the correction result output means 164 enters a word w string (see FIG. 4) up to the current point in time of the voice recognition information corresponding to the currently input content.
However, in the correction result W, the unrecognized section symbols of the word w are omitted.

この修正結果出力手段164は、修正後の音声認識結果を、テキストデータとして、修正端末2に出力することとしてもよいし、音声認識情報に修正フラグf(図4参照)が設定されている単語(未認識区間記号は除く)については、色情報を付加した予め定めたフォーマット、例えば、PDF(Portable Document Format)等のデータとして出力することとしてもよい。 The correction result output means 164 may output the corrected speech recognition result as text data to the correction terminal 2, or may output words (excluding unrecognized section symbols) for which a correction flag f (see FIG. 4) is set in the speech recognition information as data in a predetermined format with added color information, such as PDF (Portable Document Format).

情報削除手段17は、コンテンツ情報記憶手段15に記憶されている情報を定期的に削除するものである。例えば、情報削除手段17は、予め保存日数等が設定され、当該日数を超過した情報(コンテンツCon、音声認識情報Rec、セグメント情報Seg(図3参照))を削除する。 The information deletion means 17 periodically deletes information stored in the content information storage means 15. For example, the information deletion means 17 is configured to store information for a predetermined number of days, and deletes information that has exceeded that number of days (content Con, voice recognition information Rec, segment information Seg (see FIG. 3)).

以上説明したように音声認識誤り修正支援装置1を構成することで、音声認識誤り修正支援装置1は、複数の修正端末2によって、同一の修正対象であっても、後で行った修正を有効とすることで、排他制御を行うことなく、作業者の修正を迅速に反映することができる。また、音声認識誤り修正支援装置1は、ある修正端末2で行った修正を他の修正端末2に通知することができるため、複数の修正端末2で同じ修正を行うことを防止することができ、全体として修正時間を短くすることができ、入力されるコンテンツに対してリアルタイムに音声認識誤りを修正することができる。
また、音声認識誤り修正支援装置1は、簡易なテキスト編集操作で、認識結果の単語とその元となった音声とを確認しながら、音声認識の誤りを修正することができる。
また、音声認識誤り修正支援装置1は、音声認識結果が出力されない時間区間において、音声の再生位置を指定して再生させることができ、作業者は、指定した位置から音声を確認することができる。これによって、音声認識誤り修正支援装置1は、未認識区間であっても、文字列を追加するように修正を行うことができる。
なお、音声認識誤り修正支援装置1は、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
By configuring the speech recognition error correction assistance device 1 as described above, the speech recognition error correction assistance device 1 can quickly reflect the worker's corrections without performing exclusive control by validating the last correction made by multiple correction terminals 2, even if the same correction target is made by the same person. Furthermore, since the speech recognition error correction assistance device 1 can notify the other correction terminals 2 of the correction made by one correction terminal 2, it is possible to prevent the same correction from being made by multiple correction terminals 2, shorten the overall correction time, and correct speech recognition errors in input content in real time.
Furthermore, the speech recognition error correction assistance device 1 allows the user to correct speech recognition errors through simple text editing operations while checking the words of the recognition result and the original speech.
Furthermore, the speech recognition error correction assistance device 1 can specify a playback position of the speech during a time period during which the speech recognition result is not output, and the worker can check the speech from the specified position. This allows the speech recognition error correction assistance device 1 to make corrections such as adding character strings even in unrecognized sections.
The speech recognition error correction assistance device 1 can be operated by a speech recognition error correction assistance program for causing a computer to function as each of the above-mentioned means.

[音声認識誤り修正支援装置の動作]
次に、図16~図18を参照して、本発明の実施形態に係る音声認識誤り修正支援装置1の動作(音声認識誤り修正支援方法)について説明する。なお、ここでは、音声認識誤り修正支援装置1の動作として、コンテンツに対して音声認識による認識結果をセグメント単位で生成するセグメント情報生成動作と、認識結果をセグメント単位で修正端末2に提示するセグメント情報提示動作と、音声再生を行いながら認識結果を修正するセグメント修正動作と、について説明する。
[Operation of the speech recognition error correction support device]
Next, the operation of the speech recognition error correction assistance device 1 according to the embodiment of the present invention (speech recognition error correction assistance method) will be described with reference to Figures 16 to 18. Note that, as the operation of the speech recognition error correction assistance device 1, a segment information generation operation for generating recognition results by speech recognition for content on a segment-by-segment basis, a segment information presentation operation for presenting the recognition results on a segment-by-segment basis to the correction terminal 2, and a segment correction operation for correcting the recognition results while playing back the speech will be described.

(セグメント情報生成動作)
まず、図16を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント情報生成動作について説明する。
(Segment information generation operation)
First, the segment information generating operation of the speech recognition error correction assistance device 1 will be described with reference to FIG. 16 (and also with reference to FIG. 2 as necessary).

ステップS1において、コンテンツ入力手段10は、音声認識を行うコンテンツを入力する。このとき、コンテンツ入力手段10は、入力したコンテンツをコンテンツ情報記憶手段15に書き込み記憶する。
ステップS2において、音声認識手段11は、ステップS1で入力したコンテンツの音声を認識し、テキストデータである認識結果と当該認識結果を構成する単語ごとの時間情報とを対応付けて、セグメント分割手段12に通知するとともに、コンテンツ情報記憶手段15に書き込み記憶する。
In step S1, the content input unit 10 inputs the content to be subjected to voice recognition. At this time, the content input unit 10 writes and stores the input content in the content information storage unit 15.
In step S2, the voice recognition means 11 recognizes the voice of the content input in step S1, associates the recognition result, which is text data, with time information for each word that constitutes the recognition result, notifies the segment division means 12, and writes and stores it in the content information storage means 15.

ステップS3において、セグメント分割手段12は、ステップS2で認識された単語列を、予め定めた基準、例えば、映像のカット点、音声の無音区間等によりセグメントに分割する。 In step S3, the segment division means 12 divides the word string recognized in step S2 into segments based on predetermined criteria, such as video cut points, silent periods in audio, etc.

ステップS4において、未認識区間分割手段13は、ステップS3で分割されたセグメントごとに、認識されなかった音声の未認識区間を分割する。このとき、未認識区間分割手段13は、未認識区間について、予め定めた時間間隔(例えば、2秒)ごとに分割し、分割した未認識区間を示す記号(未認識区間記号)とその開始時間および時間長を、コンテンツ情報記憶手段15に書き込み記憶する。 In step S4, the unrecognized section division means 13 divides the unrecognized sections of the speech that was not recognized into segments divided in step S3. At this time, the unrecognized section division means 13 divides the unrecognized sections into predetermined time intervals (e.g., 2 seconds), and writes and stores in the content information storage means 15 a symbol indicating the divided unrecognized section (unrecognized section symbol), as well as its start time and duration.

ステップS5において、セグメント内情報抽出手段14は、ステップS3で分割されたセグメントごとに、セグメントに含まれる特徴単語を抽出するとともに、セグメントに対応する映像からサムネイル画像を抽出する。このとき、セグメント内情報抽出手段14は、抽出した特徴単語およびサムネイル画像を、セグメントに対応付けてコンテンツ情報記憶手段15に書き込み記憶する。
ここで、コンテンツの入力が完了していない場合(ステップS6でNo)、音声認識誤り修正支援装置1は、ステップS1に戻って、コンテンツの入力を続ける。
一方、コンテンツの入力が完了した場合(ステップS6でYes)、音声認識誤り修正支援装置1は、動作を終了する。
以上の動作によって、音声認識誤り修正支援装置1は、図3に示すように、コンテンツ情報記憶手段15に、コンテンツと、音声認識情報およびセグメント情報とを対応付ける。
In step S5, the segment information extraction means 14 extracts characteristic words contained in each segment divided in step S3, and extracts thumbnail images from the video corresponding to the segment. At this time, the segment information extraction means 14 writes and stores the extracted characteristic words and thumbnail images in the content information storage means 15 in association with the segment.
If the input of the content is not completed (No in step S6), the speech recognition error correction assistance device 1 returns to step S1 to continue the input of the content.
On the other hand, if the input of the content is completed (Yes in step S6), the speech recognition error correction assistance device 1 ends the operation.
Through the above operations, the speech recognition error correction assistance device 1 associates the content with the speech recognition information and segment information in the content information storage means 15 as shown in FIG.

(セグメント情報提示動作)
次に、図17を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント情報提示動作について説明する。なお、このセグメント情報提示動作は、修正端末2との接続が開始された後の編集手段16の動作である。
(Segment information presentation operation)
Next, with reference to Fig. 17 (and also with reference to Fig. 2 as necessary), a description will be given of the segment information presentation operation of the speech recognition error correction assistance device 1. Note that this segment information presentation operation is an operation of the editing means 16 after the connection with the correction terminal 2 is started.

ステップS10において、修正対象選択手段160は、コンテンツ情報記憶手段15に記憶されている音声認識誤りを修正する対象のコンテンツを選択する選択画面30(図6参照)を修正端末2に表示する。
ステップS11において、修正対象選択手段160は、画面上で、修正対象のコンテンツの開始時間と終了時間とが設定され、修正開始ボタンが押下されるまで待機する(ステップS11でNo)。そして、修正開始ボタンが押下された場合(ステップS11でYes)、修正対象選択手段160は、ステップS12以降の制御を行う編集画面制御手段161に制御を移す。
In step S10, the correction object selection means 160 displays on the correction terminal 2 a selection screen 30 (see FIG. 6) for selecting a target content for which a voice recognition error stored in the content information storage means 15 is to be corrected.
In step S11, the correction target selection means 160 waits until the start time and end time of the content to be corrected are set on the screen and the correction start button is pressed (No in step S11). When the correction start button is pressed (Yes in step S11), the correction target selection means 160 transfers control to the editing screen control means 161 that performs control from step S12 onward.

ステップS12において、編集画面制御手段161は、コンテンツ情報記憶手段15に記憶されている各種の情報に基づいて、セグメントごとに、特徴単語と当該セグメントに含まれる単語列を表示するか否かを指定する選択ボタンとを含んだセグメント一覧画面31(図8参照)を修正端末2に表示する。 In step S12, the editing screen control means 161 displays on the editing terminal 2 a segment list screen 31 (see FIG. 8) that includes, for each segment, a selection button for specifying whether or not to display characteristic words and word strings contained in the segment, based on various information stored in the content information storage means 15.

ステップS13において、編集画面制御手段161は、セグメント一覧画面で選択ボタン(open)が押下されるまで待機する(ステップS13でNo)。
一方、選択ボタン(open)が押下された場合(ステップS13でYes)、ステップS14において、編集画面制御手段161は、図9に示すように、選択されたセグメントに対応して編集領域317を表示し、コンテンツ情報記憶手段15に記憶されている当該セグメントに対応する認識結果である単語列を編集領域317に展開する。なお、このとき、編集画面制御手段161は、認識結果である単語とともに、未認識区間記号(“>”)SCを表示する。
In step S13, the edit screen control unit 161 waits until the selection button (open) is pressed on the segment list screen (No in step S13).
On the other hand, if the selection button (open) is pressed (Yes in step S13), in step S14, the editing screen control means 161 displays an editing area 317 corresponding to the selected segment as shown in Fig. 9, and expands the word string that is the recognition result corresponding to the segment stored in the content information storage means 15 in the editing area 317. At this time, the editing screen control means 161 displays an unrecognized section symbol (">") SC together with the word that is the recognition result.

この動作以降、編集手段16は、作業者が修正端末2の画面上で編集結果を修正可能な状態に移行する。なお、選択ボタン(open)の押下により編集領域317を表示した場合、編集画面制御手段161は、任意のタイミングで、選択ボタン(close)の押下により編集領域317を非表示とすることができるが、この非表示の動作については図示を省略した。また、セグメント一覧画面31B(図9参照)の動画表示領域313Bにおけるコンテンツの再生動作についてもここでは説明を省略する。
以上の動作によって、音声認識誤り修正支援装置1は、コンテンツをセグメント単位で、音声認識の誤りを修正することが可能になる。
After this operation, the editing means 16 transitions to a state in which the worker can edit the editing result on the screen of the editing terminal 2. When the editing area 317 is displayed by pressing the selection button (open), the editing screen control means 161 can hide the editing area 317 at any timing by pressing the selection button (close), but this operation of hiding is not shown in the figure. Also, the operation of playing back the content in the video display area 313B of the segment list screen 31B (see FIG. 9) is not explained here.
By the above operation, the speech recognition error correction assistance device 1 becomes able to correct speech recognition errors in content on a segment-by-segment basis.

(セグメント修正動作)
次に、図18を参照(適宜図2参照)して、音声認識誤り修正支援装置1のセグメント修正動作について説明する。なお、セグメント修正動作は、作業者が行う任意の手順であるため、ここでは、音声再生と修正動作とを併せて行う動作の一例で説明する。
(Segment correction operation)
Next, with reference to Fig. 18 (and also with reference to Fig. 2 as necessary), a description will be given of the segment correction operation of the speech recognition error correction assistance device 1. Note that the segment correction operation is an optional procedure performed by the operator, so here, an example of an operation in which speech playback and correction operation are performed together will be described.

ステップS20において、誤り修正手段162は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、編集領域317(図9)内の音声を再生したい単語または単語列を選択する。このとき、誤り修正手段162は、映像/音声再生手段163を介して、コンテンツ情報記憶手段15のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末2に出力する。これによって、修正端末2で音声が再生され、作業者は、音声と音声認識された単語列とを対比して確認することができる。
なお、このステップS20において、編集領域317(図9)内の未認識区間記号または未認識区間記号列を選択された場合も、誤り修正手段162は、単語または単語列と同様に、映像/音声再生手段163を介して、対応する音声を修正端末2に出力する。
In step S20, the error correcting means 162 selects a word or word string for which audio is to be played back in the editing area 317 (FIG. 9) by the worker clicking the mouse or touching the touch panel. At this time, the error correcting means 162 outputs audio of a time corresponding to the word or word string to the editing terminal 2 via the video/audio playing means 163, with reference to the time information of the segment in the content information storage means 15. This causes the audio to be played back in the editing terminal 2, allowing the worker to compare and confirm the audio with the word string recognized by voice.
In addition, in this step S20, even if an unrecognized section symbol or an unrecognized section symbol string in the editing area 317 (Figure 9) is selected, the error correction means 162 outputs the corresponding audio to the correction terminal 2 via the video/audio reproduction means 163, in the same way as for a word or word string.

ステップS21において、誤り修正手段162は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正箇所の位置の指定を受け付ける。このとき、誤り修正手段162は、音声が再生中であれば、修正端末2への出力を停止する。これによって、音声の再生が停止される。 In step S21, the error correction means 162 accepts the specification of the position of the correction portion by the worker clicking the mouse or touching the touch panel. At this time, if the audio is being played back, the error correction means 162 stops the output to the editing terminal 2. This stops the playback of the audio.

ステップS22において、誤り修正手段162は、編集領域の指定された位置にカーソルを表示して、文字削除、文字挿入等の作業者の編集作業により、認識誤りを修正する。ここで、誤り修正手段162は、コンテンツ情報記憶手段15の単語あるいは未認識区間記号を修正結果で更新する。
ステップS23において、誤り修正手段162は、他の編集手段16に修正内容を通知することで、他の編集手段16の誤り修正手段162が、対応する修正端末2に表示する内容を反映する。
In step S22, the error correcting means 162 displays a cursor at a specified position in the editing area, and corrects the recognition error by the operator's editing operation such as deleting characters, inserting characters, etc. Here, the error correcting means 162 updates the word or unrecognized section symbol in the content information storage means 15 with the correction result.
In step S23, the error correcting means 162 notifies the other editing means 16 of the correction content, so that the error correcting means 162 of the other editing means 16 reflects the content to be displayed on the corresponding editing terminal 2.

ステップS24において、誤り修正手段162は、作業者のマウスのクリック、あるいは、タッチパネルへのタッチにより、修正を行った箇所の位置の指定を受け付ける。このとき、誤り修正手段162は、映像/音声再生手段163を介して、コンテンツ情報記憶手段15のセグメントの時間情報を参照して、単語または単語列に対応する時間の音声を修正端末2に出力する。これによって、修正端末2で音声が再生され、作業者は、修正結果が正しいか否かを確認することができる。 In step S24, the error correction means 162 accepts the specification of the position of the correction made by the worker by clicking the mouse or touching the touch panel. At this time, the error correction means 162 references the time information of the segment in the content information storage means 15 via the video/audio playback means 163 and outputs audio of the time corresponding to the word or word string to the editing terminal 2. This causes the audio to be played back on the editing terminal 2, allowing the worker to check whether the correction result is correct or not.

なお、図示を省略しているが、ステップS24における作業者の確認で、修正箇所がまだ正しく修正されていない場合、ステップS22に戻って、動作を繰り返す。
以上の動作によって、音声認識誤り修正支援装置1は、複数の修正端末2で迅速に音声認識の誤りを修正することができる。
Although not shown in the drawing, if the worker checks in step S24 and finds that the correction portion has not been corrected correctly, the process returns to step S22 and the operation is repeated.
By the above operation, the speech recognition error correction assistance device 1 can quickly correct speech recognition errors at a plurality of correction terminals 2.

以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
ここでは、コンテンツを、映像および音声を含んだものとして説明したが、音声のみのコンテンツであっても構わない。
その場合、セグメント内情報抽出手段14は、特徴単語のみを抽出し、サムネイル画像を抽出しないこととすればよい。また、映像/音声再生手段163は、音声のみを出力する音声出力手段とすればよい。
Although the embodiment of the present invention has been described above, the present invention is not limited to this embodiment.
Here, the content has been described as including video and audio, but the content may be audio only.
In this case, the intra-segment information extraction means 14 may extract only characteristic words without extracting thumbnail images, and the video/audio reproduction means 163 may be an audio output means that outputs only audio.

また、ここでは、音声認識誤りの修正対象を、すでに音声認識が完了したコンテンツと、現在音声認識中のコンテンツとしたが、いずれか一方のみであっても構わない。例えば、現在音声認識中のコンテンツのみを音声認識誤りの修正対象とする場合、音声認識誤り修正支援装置1は、セグメント分割手段12、未認識区間分割手段13、セグメント内情報抽出手段14および修正対象選択手段160を省略して簡易に構成しても構わない。
また、ここでは、修正対象選択手段160は、コンテンツを記憶した日時を基準として、修正対象のコンテンツを選択することとしたが、選択基準は、日時に限定されるものではない。例えば、コンテンツが、放送素材コンテンツとして、ニュース、スポーツ等の電子番組ガイドのジャンルが対応付けられている場合、ジャンルを指定して、コンテンツを選択することとしてもよい。あるいは、コンテンツに当該コンテンツを収録した際のイベント情報が付加されている場合、イベントを指定して、コンテンツを選択することとしてもよい。
In addition, although the objects of correction of speech recognition errors are described here as contents for which speech recognition has already been completed and contents currently being recognized, it is also acceptable to only correct one of them. For example, when only contents currently being recognized are to be the objects of correction of speech recognition errors, the speech recognition error correction assistance device 1 may be configured simply by omitting the segment division means 12, the unrecognized section division means 13, the intra-segment information extraction means 14, and the correction object selection means 160.
In addition, here, the correction target selection means 160 selects the content to be corrected based on the date and time when the content was stored, but the selection criteria are not limited to the date and time. For example, if the content is associated with an electronic program guide genre such as news or sports as a broadcast material content, the genre may be specified to select the content. Alternatively, if event information when the content was recorded is added to the content, the event may be specified to select the content.

また、音声認識誤り修正支援装置1は、音声認識手段11を外部に備えてもよい。
例えば、図19に示す音声認識誤り修正支援装置1Bの構成としてもよい。音声認識誤り修正支援装置1Bは、音声認識誤り修正支援装置1(図2)の音声認識手段11を音声認識装置として外部に備える。この場合、入力インタフェースである認識結果入力手段18が単語および時間情報を対応付けてコンテンツ情報記憶手段15に記憶するとともに、セグメント分割手段12に通知することとすればよい。
なお、音声認識誤り修正支援装置1Bも、コンピュータを、前記した各手段として機能させるための音声認識誤り修正支援プログラムで動作させることができる。
The speech recognition error correction assistance device 1 may also include the speech recognition means 11 externally.
For example, the configuration of a speech recognition error correction assistance device 1B shown in Fig. 19 may be used. The speech recognition error correction assistance device 1B includes the speech recognition means 11 of the speech recognition error correction assistance device 1 (Fig. 2) as an external speech recognition device. In this case, the recognition result input means 18, which is an input interface, stores the words and time information in association with each other in the content information storage means 15 and notifies the segment division means 12.
The speech recognition error correction assistance device 1B can also be operated by a speech recognition error correction assistance program for causing a computer to function as each of the above-mentioned means.

また、誤り修正手段162は、編集動作をコンテキストメニューから選択することとしてもよい。
例えば、図20に示すように、誤り修正手段162は、マウスの右クリックキー等によって、コンテキストメニュー318を表示する。
コンテキストメニュー318には、機能(コピー等)とショートカットキー(Ctrl+C等)とが併せて表示され、マウスの左クリック等によって機能が選択されることで、誤り修正手段162は、該当する編集動作を実行する。あるいは、機能に対応するショートカットキーが押下されることで、誤り修正手段162は、該当する編集動作を実行する。
これによって、作業者の操作方法の習得や、操作手順を最小限に抑えることができる。
The error correcting means 162 may also select the editing operation from a context menu.
For example, as shown in FIG. 20, the error correcting means 162 displays a context menu 318 in response to a right-click key of the mouse or the like.
The context menu 318 displays functions (e.g., copy) and shortcut keys (e.g., Ctrl+C) together, and when a function is selected by, for example, left-clicking the mouse, the error correction means 162 executes the corresponding editing operation. Alternatively, when a shortcut key corresponding to a function is pressed, the error correction means 162 executes the corresponding editing operation.
This reduces the time required for workers to learn the operation method and minimizes the number of operation procedures.

また、ここでは、編集画面制御手段161が、編集領域317(図9参照)において、音声が認識されない区間に未認識区間記号(“>”)SCを表示することとした。
しかし、この未認識区間記号は、作業者の操作によって、表示と非表示とを切り替えることとしてもよい。
例えば、初期状態では、未認識区間記号を非表示とし、編集画面制御手段161は、図20に示したコンテキストメニュー318で「未認識区間の>>>表示」を選択するか、ショートカットキー(ここでは、Ctrl+D)を押下されることで、未認識区間記号を表示する。
また、未認識区間記号を表示した状態で、編集画面制御手段161は、コンテキストメニューで「未認識区間の>>>非表示」(不図示)を選択するか、対応するショートカットキーを押下されることで、未認識区間記号を非表示にする。
これによって、編集画面制御手段161は、修正端末2ごとに、未認識区間記号の表示と非表示とを切り替えることができる。
Also, here, the editing screen control means 161 displays an unrecognized section symbol (">") SC in the editing area 317 (see FIG. 9) in a section where speech is not recognized.
However, the unrecognized section symbol may be switched between displayed and hidden by an operator's operation.
For example, in the initial state, the unrecognized section symbol is hidden, and the editing screen control means 161 displays the unrecognized section symbol when the user selects “Display unrecognized sections >>>” from the context menu 318 shown in FIG. 20 or when the shortcut key (here, Ctrl+D) is pressed.
In addition, when the unrecognized section symbol is displayed, the editing screen control means 161 hides the unrecognized section symbol by selecting “Hide unrecognized section >>>” (not shown) from the context menu or by pressing the corresponding shortcut key.
This allows the editing screen control means 161 to switch between displaying and not displaying the unrecognized section symbol for each editing terminal 2 .

なお、ここでは、未認識区間記号(“>”)の表示と非表示とを切り替える例で説明したが、未認識区間であるか否かによって未認識区間の単語列(未認識区間記号を含む)の表示と非表示とを切り替えることとしてもよい。例えば、音声認識情報Rec(図4)において、単語Wが未認識区間記号(“>”)の単語だけでなく、未認識区間記号(“>”)を含んだ単語列を、表示および非表示の切り替え対象としてもよい。また、未認識区間の単語であるか否かの判定は、未認識区間記号(“>”)の有無以外に、音声認識情報Rec(図4)に単語wに対応付けて認識フラグ(不図示)を設け、その値(例えば、認識単語“1”、未認識単語“0”)によって、未認識区間の単語であるか否かの判定を行ってもよい。この認識フラグの値は、音声認識手段11および未認識区間分割手段13によって設定することができる。例えば、音声認識手段11は、認識した単語については、認識単語を示す値(例えば、“1”)を認識フラグに設定し、未認識区間分割手段13は、未認識区間記号に対応する単語については、未認識単語を示す値(例えば、“0”)を認識フラグに設定すればよい。 Here, an example of switching between display and non-display of the unrecognized section symbol (">") has been described, but the display and non-display of the word string of the unrecognized section (including the unrecognized section symbol) may be switched depending on whether or not it is an unrecognized section. For example, in the voice recognition information Rec (FIG. 4), not only the word W with the unrecognized section symbol (">") but also the word string including the unrecognized section symbol (">") may be the target of switching between display and non-display. In addition, in order to determine whether or not it is a word of the unrecognized section, in addition to the presence or absence of the unrecognized section symbol (">"), a recognition flag (not shown) may be provided in the voice recognition information Rec (FIG. 4) in association with the word w, and whether or not it is a word of the unrecognized section may be determined based on the value (for example, recognized word "1", unrecognized word "0"). The value of this recognition flag can be set by the voice recognition means 11 and the unrecognized section division means 13. For example, the speech recognition means 11 sets a value indicating a recognized word (e.g., "1") to the recognition flag for a recognized word, and the unrecognized section division means 13 sets a value indicating an unrecognized word (e.g., "0") to the recognition flag for a word that corresponds to an unrecognized section symbol.

また、ここでは、音声認識誤り修正支援装置1,1Bが、複数の修正端末2によって、音声認識の誤りを修正することとした。
しかし、この修正端末2は、1台であってもよい。その場合、音声認識誤り修正支援装置1,1Bは、編集手段16を1つ備える構成とすればよい。
In addition, the speech recognition error correction assistance device 1, 1B corrects speech recognition errors using a plurality of correction terminals 2.
However, there may be only one correction terminal 2. In this case, the speech recognition error correction assistance device 1, 1B may be configured to include one editing means 16.

また、ここでは、音声認識誤り修正支援装置1,1Bに、未認識区間分割手段13を備える構成とした。
しかし、未認識区間分割手段13は、音声認識手段11を有する音声認識装置に備えることとしてもよい。
例えば、図21に示すように、音声を認識する音声認識装置3を、音声認識手段11と未認識区間分割手段13とを備える構成とし、音声認識誤り修正支援装置1,1Bの音声認識手段11と置き換えればよい。なお、音声認識手段11および未認識区間分割手段13は、図2で説明した音声認識誤り修正支援装置1と同じ構成であるため、説明を省略する。
Further, in this embodiment, the speech recognition error correction assistance device 1, 1B is configured to include the unrecognized section division means 13.
However, the unrecognized section dividing means 13 may be provided in a voice recognition device having the voice recognition means 11 .
For example, as shown in Fig. 21, a speech recognition device 3 for recognizing speech may be configured to include a speech recognition means 11 and an unrecognized section division means 13, and may be substituted for the speech recognition means 11 of the speech recognition error correction assistance devices 1 and 1B. Note that the speech recognition means 11 and the unrecognized section division means 13 have the same configuration as those of the speech recognition error correction assistance device 1 described in Fig. 2, and therefore a description thereof will be omitted.

1,1B 音声認識誤り修正支援装置
10 コンテンツ入力手段
11 音声認識手段(音声認識装置)
12 セグメント分割手段
13 未認識区間分割手段
14 セグメント内情報抽出手段
15 コンテンツ情報記憶手段(記憶手段)
16 編集手段
160 編集対象選択手段
161 編集画面制御手段
162 誤り修正手段
163 映像/音声再生手段(音声出力手段)
164 修正結果出力手段
17 情報削除手段
18 認識結果入力手段
2 修正端末
3 音声認識装置
1, 1B Speech recognition error correction support device 10 Content input means 11 Speech recognition means (speech recognition device)
12 Segment division means 13 Unrecognized section division means 14 In-segment information extraction means 15 Content information storage means (storage means)
16 Editing means 160 Editing object selection means 161 Editing screen control means 162 Error correction means 163 Video/audio reproducing means (audio output means)
164 Correction result output means 17 Information deletion means 18 Recognition result input means 2 Correction terminal 3 Speech recognition device

Claims (6)

音声認識の誤りを修正する音声認識誤り修正支援装置であって、
編集手段を備え、
前記編集手段は、
音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示する編集画面制御手段と、
前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力する音声出力手段と、
前記編集画面で修正された修正内容で、前記単語または前記記号を更新する誤り修正手段と、を備え
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援装置。
A speech recognition error correction assistance device for correcting speech recognition errors, comprising:
An editing means is provided,
The editing means includes:
an editing screen control means for displaying an editing screen including words constituting the speech recognition result and predetermined symbols indicating unrecognized sections of speech for which no recognition result has been generated in the speech recognition;
a voice output means for outputting a voice corresponding to time information of a word or a symbol designated on the editing screen;
an error correction means for updating the word or the symbol with the correction content corrected on the editing screen ,
The speech recognition error correction assistance device according to claim 1, wherein the edit screen control means switches between displaying and not displaying the symbols of the unrecognized section by selecting from a menu screen or by pressing a predetermined shortcut key .
音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援装置であって、
音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶する記憶手段と、
前記複数の修正端末に対応した複数の編集手段と、を備え、
前記編集手段は、
前記音声認識結果を構成する単語と、前記未認識区間を示す予め定めた記号と、を含んだ編集画面を対応する前記修正端末に表示する編集画面制御手段と、
前記編集画面上で指定された単語または記号の時間情報に対応する音声を対応する前記修正端末に出力する音声出力手段と、
前記編集画面で修正された修正内容で、前記記憶手段に記憶されている前記単語または前記記号を後書き優先で更新する誤り修正手段と、を備え
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援装置。
A speech recognition error correction assistance device that corrects speech recognition errors at a plurality of correction terminals, comprising:
a storage means for storing predetermined symbols indicating words of the speech recognition result and unrecognized segments of speech for which no recognition result was generated in the speech recognition, in association with respective time information;
A plurality of editing means corresponding to the plurality of editing terminals,
The editing means includes:
an editing screen control means for displaying an editing screen including words constituting the speech recognition result and a predetermined symbol indicating the unrecognized section on the corresponding editing terminal;
a voice output means for outputting a voice corresponding to time information of a word or symbol designated on the editing screen to the corresponding editing terminal;
an error correction means for updating the word or the symbol stored in the storage means with correction contents corrected on the editing screen in a postscript priority manner ;
The speech recognition error correction assistance device according to claim 1, wherein the edit screen control means switches between displaying and not displaying the symbols of the unrecognized section by selecting from a menu screen or by pressing a predetermined shortcut key .
前記未認識区間の記号は、前記未認識区間を予め定めた時間間隔で分割し、当該時間間隔ごとに未認識を示す予め定めた記号であって、当該記号に時間情報が対応付けられていることを特徴とする請求項1または請求項2に記載の音声認識誤り修正支援装置。 The speech recognition error correction support device according to claim 1 or 2, characterized in that the symbol of the unrecognized section is a predetermined symbol indicating unrecognized for each time interval, the unrecognized section being divided into predetermined time intervals, and time information is associated with the symbol. コンピュータを、請求項1から請求項のいずれか一項に記載の音声認識誤り修正支援装置として機能させるための音声認識誤り修正支援プログラム。 A speech recognition error correction assistance program for causing a computer to function as the speech recognition error correction assistance device according to any one of claims 1 to 3 . 音声認識の誤りを修正する音声認識誤り修正支援方法であって、
編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示するステップと、
音声出力手段によって、前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力するステップと、
誤り修正手段によって、前記編集画面で修正された修正内容で、前記単語または前記記号を更新するステップと、
を含み、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援方法。
A speech recognition error correction assistance method for correcting a speech recognition error, comprising:
displaying an edit screen including words constituting the speech recognition result and predetermined symbols indicating unrecognized sections of speech for which no recognition result was generated in the speech recognition by an edit screen control means;
outputting, by a voice output means, a voice corresponding to time information of the word or symbol designated on the editing screen;
updating the word or the symbol with the correction content corrected on the editing screen by an error correction means;
Including,
The speech recognition error correction support method according to the present invention, wherein the editing screen control means switches between displaying and not displaying the symbols of the unrecognized section by selecting from a menu screen or by pressing a predetermined shortcut key .
音声認識の誤りを、複数の修正端末で修正する音声認識誤り修正支援方法であって、
音声認識結果の単語および音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号を、それぞれの時間情報と対応付けて記憶手段に記憶するステ
ップと、
前記複数の修正端末において、
編集画面制御手段によって、音声認識結果を構成する単語と、音声認識において認識結果が生成されなかった音声の未認識区間を示す予め定めた記号と、を含んだ編集画面を表示するステップと、
音声出力手段によって、前記編集画面上で指定された単語または記号の時間情報に対応する音声を出力するステップと、
誤り修正手段によって、前記編集画面で修正された修正内容で、前記記憶手段に記憶されている前記単語または前記記号を後書き優先で更新するステップと、
を含み、
前記編集画面制御手段は、前記未認識区間の記号の表示または非表示を、メニュー画面による選択または予め定めたショートカットキーの押下により切り替えることを特徴とする音声認識誤り修正支援方法。
A speech recognition error correction support method for correcting speech recognition errors using a plurality of correction terminals, comprising:
storing in a storage means, in association with time information, predetermined symbols indicating words of the speech recognition result and unrecognized sections of speech for which no recognition result was generated in the speech recognition;
In the plurality of editing terminals,
displaying an edit screen including words constituting the speech recognition result and predetermined symbols indicating unrecognized sections of speech for which no recognition result was generated in the speech recognition by an edit screen control means;
outputting, by a voice output means, a voice corresponding to time information of the word or symbol designated on the editing screen;
updating said word or said symbol stored in said storage means with correction contents corrected on said editing screen by said error correction means, with postscript taking priority;
Including,
The speech recognition error correction support method according to the present invention, wherein the editing screen control means switches between displaying and not displaying the symbols of the unrecognized section by selecting from a menu screen or by pressing a predetermined shortcut key .
JP2020039124A 2020-03-06 2020-03-06 Speech recognition error correction support device, program, and method Active JP7481863B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020039124A JP7481863B2 (en) 2020-03-06 2020-03-06 Speech recognition error correction support device, program, and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020039124A JP7481863B2 (en) 2020-03-06 2020-03-06 Speech recognition error correction support device, program, and method

Publications (2)

Publication Number Publication Date
JP2021140084A JP2021140084A (en) 2021-09-16
JP7481863B2 true JP7481863B2 (en) 2024-05-13

Family

ID=77669538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020039124A Active JP7481863B2 (en) 2020-03-06 2020-03-06 Speech recognition error correction support device, program, and method

Country Status (1)

Country Link
JP (1) JP7481863B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259181A (en) 1999-03-10 2000-09-22 Olympus Optical Co Ltd Device and method for recognizing speech information, and recording medium where program for recognizing speech information is recorded
JP2004191616A (en) 2002-12-11 2004-07-08 Canon Inc Automatic document creating apparatus
JP2005275925A (en) 2004-03-25 2005-10-06 Railway Technical Res Inst Server system
JP2006133478A (en) 2004-11-05 2006-05-25 Nec Corp Voice-processing system and method, and voice-processing program
JP2019197210A (en) 2018-05-08 2019-11-14 日本放送協会 Speech recognition error correction support device and its program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259181A (en) 1999-03-10 2000-09-22 Olympus Optical Co Ltd Device and method for recognizing speech information, and recording medium where program for recognizing speech information is recorded
JP2004191616A (en) 2002-12-11 2004-07-08 Canon Inc Automatic document creating apparatus
JP2005275925A (en) 2004-03-25 2005-10-06 Railway Technical Res Inst Server system
JP2006133478A (en) 2004-11-05 2006-05-25 Nec Corp Voice-processing system and method, and voice-processing program
JP2019197210A (en) 2018-05-08 2019-11-14 日本放送協会 Speech recognition error correction support device and its program

Also Published As

Publication number Publication date
JP2021140084A (en) 2021-09-16

Similar Documents

Publication Publication Date Title
US11238899B1 (en) Efficient audio description systems and methods
US6728680B1 (en) Method and apparatus for providing visual feedback of speed production
US8818803B2 (en) Character-based automated text summarization
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
US20090100454A1 (en) Character-based automated media summarization
US20070244700A1 (en) Session File Modification with Selective Replacement of Session File Components
US20060179403A1 (en) Media editing system
US20100003006A1 (en) Video searching apparatus, editing apparatus, video searching method, and program
US20200126559A1 (en) Creating multi-media from transcript-aligned media recordings
JP6280312B2 (en) Minutes recording device, minutes recording method and program
JPH07182365A (en) Device and method for assisting multimedia conference minutes generation
JP5206553B2 (en) Browsing system, method, and program
JP2006301223A (en) System and program for speech recognition
JP4020083B2 (en) Transcription text creation support system and program
JP2019148681A (en) Text correction device, text correction method and text correction program
JP4741406B2 (en) Nonlinear editing apparatus and program thereof
CN111885416B (en) Audio and video correction method, device, medium and computing equipment
CN111885313A (en) Audio and video correction method, device, medium and computing equipment
JP6865701B2 (en) Speech recognition error correction support device and its program
JP6949075B2 (en) Speech recognition error correction support device and its program
JP3896760B2 (en) Dialog record editing apparatus, method, and storage medium
JP7481863B2 (en) Speech recognition error correction support device, program, and method
US9870134B2 (en) Interactive blocking and management for performing arts productions
JP2002008052A (en) Presentation system and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230215

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20230613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240426

R150 Certificate of patent or registration of utility model

Ref document number: 7481863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150