JP2017040856A - Voice recognition result editing device, voice recognition result editing method, and program - Google Patents

Voice recognition result editing device, voice recognition result editing method, and program Download PDF

Info

Publication number
JP2017040856A
JP2017040856A JP2015163571A JP2015163571A JP2017040856A JP 2017040856 A JP2017040856 A JP 2017040856A JP 2015163571 A JP2015163571 A JP 2015163571A JP 2015163571 A JP2015163571 A JP 2015163571A JP 2017040856 A JP2017040856 A JP 2017040856A
Authority
JP
Japan
Prior art keywords
recognition result
speech recognition
unit
voice recognition
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015163571A
Other languages
Japanese (ja)
Other versions
JP6457353B2 (en
Inventor
孝 中村
Takashi Nakamura
孝 中村
澄宇 阪内
Sumitaka Sakauchi
澄宇 阪内
孝典 芦原
Takanori Ashihara
孝典 芦原
学 岡本
Manabu Okamoto
学 岡本
勇祐 井島
Yusuke Ijima
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015163571A priority Critical patent/JP6457353B2/en
Publication of JP2017040856A publication Critical patent/JP2017040856A/en
Application granted granted Critical
Publication of JP6457353B2 publication Critical patent/JP6457353B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a voice recognition result editing device which enables a proof-reader to edit a voice recognition result as speedily as in real time.SOLUTION: A voice recognition result editing device includes: a voice collection section acquiring voice; a voice recognition section 12 which recognizes voice and acquires for each voice collection section and for each utterance a set of voice recognition results including a plurality of voice recognition results where reliability is imparted for every word; a recognition result collection section 13 which links and stores the set of voice recognition results, a microphone ID to be an identifier of the corresponding voice collection section, and an utterance start time of day of corresponding utterance to a prescribed storage domain and, when it receives a request signal, transmits the set of voice recognition results that correspond to a microphone ID designated by the request signal and that the utterance start time satisfies a prescribed condition; and a recognition result correction section which transmits the request signal, performs prescribed processing of words included in the respective voice recognition results in the set of voice recognition results whose reliability satisfies a prescribed condition when the set of voice recognition results are received, and displays the whole or a part of the voice recognition results included in the set of voice recognition results.SELECTED DRAWING: Figure 1

Description

本発明は、校正者が音声認識結果の編集に用いる音声認識結果編集装置、音声認識結果編集方法、プログラムに関する。   The present invention relates to a speech recognition result editing apparatus, speech recognition result editing method, and program used by a proofreader for editing speech recognition results.

音声認識の分野において、誤認識を訂正する技術は多数存在する。例えば、発声される内容(セリフなど)が予め原稿データベースに記録されている映像に対して、原稿データベースと音声認識結果とを照合して、音声認識結果に最も類似するテキストを原稿データベースから選択して、これを字幕表示することで、人手による認識誤りの修正作業を必要とせず、リアルタイムに近い速度で、映像に字幕付与を行うことができる技術が知られている(非特許文献1)。また、コンフュージョンネットワークを用いて単語ごとの認識競合候補を呈示し、ユーザに選択させる音声訂正インターフェースが知られている(非特許文献2)。   There are many techniques for correcting misrecognition in the field of speech recognition. For example, for a video in which content to be uttered (such as speech) is recorded in advance in the manuscript database, the manuscript database is checked against the voice recognition result, and the text most similar to the voice recognition result is selected from the manuscript database. Thus, a technique is known in which subtitles are displayed so that subtitles can be added to video at a speed close to real time without requiring manual correction of recognition errors (Non-Patent Document 1). A speech correction interface is also known that presents recognition competition candidates for each word using a confusion network and allows the user to select (Non-Patent Document 2).

著者の記載なし、「ローカル番組への字幕付与技術」、NHK技研R&D、NHK放送技術研究所、平成26年5月、No.145、p.70No author's description, “Subtitles for local programs”, NHK R & D, NHK Broadcasting Technology Laboratory, May 2014, No.145, p.70 緒方淳、後藤真孝「音声訂正:認識誤りを選択操作だけで訂正ができる新たな音声入力インタフェース」、日本ソフトウェア科学会第12回インタラクティブシステムとソフトウェアに関するワークショップ(WISS2004)論文集、日本ソフトウェア科学会、平成16年12月、p.47-52Satoshi Ogata, Masataka Goto, “Speech Correction: A New Voice Input Interface that Corrects Recognition Errors by Selecting Operation”, Proceedings of 12th Interactive Software and Software Workshop (WISS2004), Japan Society for Software Science , December 2004, p.47-52

非特許文献1の技術は、予め発話内容をデータベースに記録しておくことができなければ、上記の効果を達成できない。また非特許文献2の技術は、複数の単語を修正する場合に校正者の操作が煩雑になり、リアルタイムに近い速度で音声認識結果を修正することが困難であった。   The technology of Non-Patent Document 1 cannot achieve the above effect unless the utterance content can be recorded in the database in advance. In the technique of Non-Patent Document 2, the operation of the proofreader becomes complicated when correcting a plurality of words, and it is difficult to correct the speech recognition result at a speed close to real time.

そこで本発明では、音声認識結果をリアルタイムに近い速度で校正者に編集させる音声認識結果編集装置を提供することを目的とする。   Therefore, an object of the present invention is to provide a speech recognition result editing apparatus that allows a proofreader to edit a speech recognition result at a speed close to real time.

本発明の音声認識結果編集装置は、収音部と、音声認識部と、認識結果集約部と、認識結果修正部を含む。   The speech recognition result editing apparatus according to the present invention includes a sound collection unit, a speech recognition unit, a recognition result aggregation unit, and a recognition result correction unit.

収音部は、音声信号を取得する。音声認識部は、音声信号を音声認識して、単語ごとに信頼度が付与された音声認識結果を複数含む音声認識結果集合を収音部毎、発話毎に取得する。認識結果集約部は、音声認識結果集合と、対応する収音部の識別子であるマイクIDと、対応する発話の発話開始時刻とを紐づけて所定の記憶領域に記憶し、要求信号を受信した場合に、要求信号により指定されたマイクIDに対応し、かつ発話開始時刻が所定の条件を充たす音声認識結果集合を送信する。認識結果修正部は、要求信号を送信し、音声認識結果集合を受信した場合に、当該音声認識結果集合における各音声認識結果に含まれる各単語の信頼度が所定の条件を充たす単語を所定の文字列に変換する処理、信頼度が所定の条件を充たす単語を編集可能な状態に予め設定する処理、信頼度が所定の条件を充たす単語を編集可能とするための短縮操作を割り当てる処理のうち一つ以上の処理を実行し、音声認識結果集合に含まれる音声認識結果の全部または一部を表示する。   The sound collection unit acquires an audio signal. The speech recognition unit recognizes a speech signal and acquires a speech recognition result set including a plurality of speech recognition results to which reliability is given for each word for each sound collection unit and each utterance. The recognition result aggregation unit associates the speech recognition result set, the microphone ID that is the identifier of the corresponding sound collection unit, and the utterance start time of the corresponding utterance, stores them in a predetermined storage area, and receives the request signal In this case, a speech recognition result set corresponding to the microphone ID specified by the request signal and having the utterance start time satisfying a predetermined condition is transmitted. When the recognition result correction unit transmits a request signal and receives the speech recognition result set, the recognition result correction unit determines a word satisfying a predetermined condition for the reliability of each word included in each speech recognition result in the speech recognition result set. Of the process of converting to a character string, the process of presetting a word whose reliability satisfies a predetermined condition to an editable state, and the process of assigning a shortening operation to enable editing of a word whose reliability satisfies a predetermined condition One or more processes are executed to display all or part of the speech recognition results included in the speech recognition result set.

本発明の音声認識結果編集装置によれば、音声認識結果をリアルタイムに近い速度で校正者に編集させることができる。   According to the speech recognition result editing apparatus of the present invention, the proofreader can edit the speech recognition result at a speed close to real time.

実施例1の音声認識結果編集装置の構成を示すブロック図。1 is a block diagram showing a configuration of a speech recognition result editing apparatus according to Embodiment 1. FIG. 実施例1の音声認識結果編集装置の送信動作を示すフローチャート。6 is a flowchart illustrating a transmission operation of the speech recognition result editing apparatus according to the first embodiment. 実施例1の音声認識結果編集装置の出力動作を示すフローチャート。5 is a flowchart illustrating an output operation of the speech recognition result editing apparatus according to the first embodiment. 実施例1の認識結果集約部の構成を示すブロック図。FIG. 3 is a block diagram illustrating a configuration of a recognition result aggregation unit according to the first embodiment. 実施例1の認識結果集約部の動作を示すフローチャート。6 is a flowchart illustrating the operation of a recognition result aggregation unit according to the first embodiment. 実施例1の認識結果修正部の構成を示すブロック図。FIG. 3 is a block diagram illustrating a configuration of a recognition result correction unit according to the first embodiment. 実施例1の認識結果修正部の動作を示すフローチャート。5 is a flowchart illustrating the operation of a recognition result correction unit according to the first embodiment. 校正者が参照する画面表示を例示する図。The figure which illustrates the screen display which a proofreader refers. 編集窓に表示される音声認識結果に割り当てられるショートカットキーを例示する図。The figure which illustrates the shortcut key allocated to the speech recognition result displayed on an edit window.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

以下、図1を参照して実施例1の音声認識結果編集装置1の構成について説明する。図1は、本実施例の音声認識結果編集装置1の構成を示すブロック図である。図1に示すように本実施例の音声認識結果編集装置1は、任意の数の(Nを1以上の整数とし、N個の)収音部11−1、…、11−n、…、11−Nと、音声認識部12と、認識結果集約部13と、認識結果データベース14と、任意の数の(Mを1以上の整数とし、M個の)認識結果修正部15−1、…、15−m、…、15−Mを含む構成である。各収音部11−1、…、11−n、…、11−Nに対して通常は一人ずつデフォルトの話者が割り当てられているものとする。収音部に対する話者の割り当ては、収音部の識別子であるマイクIDと、話者の識別子である話者IDを用いて予め実行されているものとする。なお話者の総数はNより小さい場合もあるし、大きい場合もある。話者の総数がNより小さい場合には、何れの話者とも割り当てられていない収音部が存在するものとする。話者の総数がNより大きい場合には、何れの収音部とも対応付けられていない話者が存在するものとする。一方、各認識結果修正部に対しては一名以上の校正者(音声認識結果の校正、編集、修正を担当する者)が割り当てられているものとする。なお校正者は、自身に割り当てられた認識結果修正部を閲覧、操作可能であるものとする。校正者は、収音部11−1、…、11−n、…、11−Nで収音される音声を直接、または間接に聴取可能であれば好適である。例えば複数人のパネラーが参加する講演を生中継するような場合、校正者は講演が行われている会場内や、講演会場の楽屋裏などにいながら校正作業を行い、講演内容をリアルタイムで直接に聴取することができるものとしてもよい。これ以外にも、校正者は講演会場以外の場所にいて、コンピュータを用いて、講演内容を生配信する配信サイトなどにアクセスし、この配信サイトを閲覧して講演内容を間接的に聴取しながら、校正作業を行うこととしてもよい。   The configuration of the speech recognition result editing apparatus 1 according to the first embodiment will be described below with reference to FIG. FIG. 1 is a block diagram showing the configuration of the speech recognition result editing apparatus 1 according to the present embodiment. As shown in FIG. 1, the speech recognition result editing apparatus 1 according to the present embodiment has an arbitrary number of sound collecting units 11-1,..., 11-n,. 11-N, the speech recognition unit 12, the recognition result aggregation unit 13, the recognition result database 14, and an arbitrary number of recognition result correction units 15-1 (M is an integer equal to or greater than 1). , 15-m,..., 15-M. Assume that a default speaker is normally assigned to each of the sound collection units 11-1,..., 11-n,. It is assumed that speaker allocation to the sound collection unit is executed in advance using a microphone ID that is an identifier of the sound collection unit and a speaker ID that is an identifier of the speaker. The total number of speakers may be smaller than N or larger. When the total number of speakers is smaller than N, it is assumed that there is a sound collection unit that is not assigned to any speaker. When the total number of speakers is larger than N, it is assumed that there is a speaker that is not associated with any sound collection unit. On the other hand, it is assumed that one or more proofreaders (persons in charge of proofreading, editing, and correcting speech recognition results) are assigned to each recognition result correction unit. It is assumed that the proofreader can browse and operate the recognition result correction unit assigned to the proofreader. It is preferable if the proofreader can directly or indirectly listen to the sound collected by the sound collection units 11-1, ..., 11-n, ..., 11-N. For example, in the case of a live broadcast of a lecture in which multiple panelists participate, the proofreader performs proofreading work in the venue where the lecture is being held or behind the backstage of the lecture hall, and the lecture contents are directly edited in real time. It is good also as what can be heard. In addition to this, the proofreader is in a place other than the lecture hall, uses a computer to access a distribution site that delivers the lecture contents live, and browses this distribution site while listening to the lecture contents indirectly. The calibration operation may be performed.

以下、図2、図3を参照して本実施例の音声認識結果編集装置1の動作の概要について説明する。図2は、本実施例の音声認識結果編集装置1の送信動作を示すフローチャート、図3は、本実施例の音声認識結果編集装置1の出力動作を示すフローチャートである。   Hereinafter, an outline of the operation of the speech recognition result editing apparatus 1 according to the present embodiment will be described with reference to FIGS. FIG. 2 is a flowchart showing the transmission operation of the speech recognition result editing apparatus 1 of the present embodiment, and FIG. 3 is a flowchart showing the output operation of the speech recognition result editing apparatus 1 of the present embodiment.

図2に示すように、収音部11−1、…、11−n、…、11−Nは、音声信号を取得する(S11−1〜N)。音声認識部12は、音声信号を音声認識して、単語ごとに信頼度が付与された音声認識結果を複数含む音声認識結果集合を収音部毎、発話毎に取得する(S12)。音声認識部12は参考非特許文献1などの公知の技術により音声認識を実行する。   As shown in FIG. 2, the sound collection units 11-1, ..., 11-n, ..., 11-N acquire audio signals (S11-1 to N). The speech recognition unit 12 recognizes a speech signal and acquires a speech recognition result set including a plurality of speech recognition results to which reliability is given for each word for each sound collection unit and each utterance (S12). The voice recognition unit 12 performs voice recognition by a known technique such as Reference Non-Patent Document 1.

(参考非特許文献1:日本電信電話株式会社、”音声認識エンジンVoiceRexの開発”、[online]、日本電信電話株式会社、[平成27年8月6日検索]、インターネット<URL:http://www.ntt.co.jp/svlab/activity/category_2/product2_12.html>)
音声認識部12は、音声信号に対して必要に応じて音声区間検出処理、雑音抑圧処理などを実行し、音声信号を音響特徴量に変換し、音声認識処理を実行する。音声認識結果集合は、参考非特許文献2に記載のような公知の技術によりリスコアリング等されたものを用いてもよい。
(Reference Non-Patent Document 1: Nippon Telegraph and Telephone Corporation, “Development of Voice Recognition Engine VoiceRex”, [online], Nippon Telegraph and Telephone Corporation, [Search August 6, 2015], Internet <URL: http: / /www.ntt.co.jp/svlab/activity/category_2/product2_12.html>)
The speech recognition unit 12 performs speech segment detection processing, noise suppression processing, and the like on the speech signal as necessary, converts the speech signal into an acoustic feature amount, and executes speech recognition processing. As the speech recognition result set, a re-scoring or the like by a known technique as described in Reference Non-Patent Document 2 may be used.

(参考非特許文献2:小林彰夫、外5名、”単語誤り最小化に基づく識別的リスコアリングによる音声認識”、[online]、平成24年1月、NHK技研、[平成27年8月6日検索]、インターネット<URL:http://www.nhk.or.jp/strl/publica/rd/rd131/PDF/P28-39.pdf>)
認識結果集約部13は、音声認識結果集合と、対応する収音部の識別子であるマイクIDと、対応する発話の発話開始時刻とを紐づけて所定の記憶領域(認識結果データベース14)に記憶する(S13A)。認識結果データベース14に記憶される情報は、発話開始時刻順にソートされていてもよい。
(Reference Non-Patent Document 2: Akio Kobayashi, 5 others, “Speech recognition by discriminative rescoring based on word error minimization”, [online], January 2012, NHK STRL, [August 2015 6-day search], Internet <URL: http: //www.nhk.or.jp/strl/publica/rd/rd131/PDF/P28-39.pdf>)
The recognition result aggregating unit 13 associates the speech recognition result set, the microphone ID that is the identifier of the corresponding sound collection unit, and the utterance start time of the corresponding utterance, and stores them in a predetermined storage area (recognition result database 14). (S13A). The information stored in the recognition result database 14 may be sorted in the order of the utterance start time.

認識結果修正部15−1、…、15−m、…、15−Mは、要求信号を送信する(S15A)。要求信号には校正者ID、マイクID(マイクIDが複数指定された場合はマイクID集合)を指定する情報が含まれるものとする。要求信号が送信されるタイミングは様々である。例えば、認識結果修正部15−1、…、15−m、…、15−Mは、校正者の操作、設定に従って、定期的に要求信号を送信することとしてもよい。要求信号の定期的送信は、校正者がその実施/不実施を設定可能であるものとする。また後述するように、認識結果修正部15−1、…、15−m、…、15−Mは、修正済みの音声認識結果の送信と同じタイミングで要求信号を送信してもよい。   The recognition result correction units 15-1, ..., 15-m, ..., 15-M transmit request signals (S15A). The request signal includes information specifying a proofreader ID and a microphone ID (a set of microphone IDs when a plurality of microphone IDs are specified). There are various timings at which the request signal is transmitted. For example, the recognition result correction units 15-1,..., 15-m,..., 15-M may transmit the request signal periodically according to the operation and setting of the proofreader. It is assumed that the periodic transmission of the request signal can be set by the proofreader to be executed / not executed. As will be described later, the recognition result correction units 15-1, ..., 15-m, ..., 15-M may transmit the request signal at the same timing as the transmission of the corrected speech recognition result.

認識結果集約部13は、要求信号を受信した場合に、要求信号により指定されたマイクID(マイクID集合)に対応し、かつ発話開始時刻が所定の条件を充たす(例えば当該時刻が最も古い)音声認識結果集合を送信する(S13B)。認識結果修正部15−1、…、15−m、…、15−Mは、音声認識結果集合を受信した場合に、当該音声認識結果集合における各音声認識結果に含まれる各単語の信頼度が所定の条件を充たす単語を所定の文字列に変換する処理、信頼度が所定の条件を充たす単語を編集可能な状態に予め設定する処理、信頼度が所定の条件を充たす単語を編集可能とするための短縮操作(ショートカットキー)を割り当てる処理のうち少なくとも一つ以上の処理を実行し、音声認識結果集合に含まれる音声認識結果の全部または一部を表示する(S15B)。表示された音声認識結果は校正者によって閲覧され、選択、修正される。   When receiving the request signal, the recognition result aggregating unit 13 corresponds to the microphone ID (microphone ID set) specified by the request signal, and the utterance start time satisfies a predetermined condition (for example, the time is the oldest). A speech recognition result set is transmitted (S13B). When the recognition result correction unit 15-1,..., 15-m,..., 15-M receives the speech recognition result set, the reliability of each word included in each speech recognition result in the speech recognition result set is determined. Processing for converting a word satisfying a predetermined condition into a predetermined character string, processing for presetting a word whose reliability satisfies a predetermined condition to be editable, and editing a word whose reliability satisfies a predetermined condition At least one of the processes for assigning a shortening operation (shortcut key) is executed to display all or part of the speech recognition results included in the speech recognition result set (S15B). The displayed speech recognition result is viewed, selected and corrected by the proofreader.

図3に示すように、認識結果修正部15−1、…、15−m、…、15−Mは、校正者によって一つの発話につき一つずつ選択されて修正された音声認識結果と、次回の要求信号を認識結果集約部13に送信する(S15C)。認識結果集約部13は、受信した修正済み音声認識結果を出力する(S13C)。認識結果集約部13は、受信した修正済み音声認識結果を対応する音声認識結果集合と紐づけて認識結果データベース14に記憶し、管理する。認識結果集約部13は、受信した修正済み音声認識結果を出力するか破棄するか選択可能であるものとする。ステップS13Cにおいて、認識結果集約部13は、管理している修正済み音声認識結果を発話開始時刻順に随時出力するものとする。   As shown in FIG. 3, the recognition result correction units 15-1,..., 15-m,..., 15-M select the corrected speech recognition results for each utterance by the proofreader. Is sent to the recognition result aggregating unit 13 (S15C). The recognition result aggregating unit 13 outputs the received corrected speech recognition result (S13C). The recognition result aggregating unit 13 stores and manages the received corrected speech recognition result in the recognition result database 14 in association with the corresponding speech recognition result set. The recognition result aggregating unit 13 can select whether to output or discard the received corrected speech recognition result. In step S <b> 13 </ b> C, the recognition result aggregating unit 13 outputs the managed corrected speech recognition results managed in order of utterance start times as needed.

以下、図4、図5を参照して、認識結果集約部13の構成、および動作について例外処理などを含め詳細に説明する。図4は、本実施例の認識結果集約部13の構成を示すブロック図である。図5は、本実施例の認識結果集約部13の動作を示すフローチャートである。   Hereinafter, the configuration and operation of the recognition result aggregation unit 13 including exception processing and the like will be described in detail with reference to FIGS. 4 and 5. FIG. 4 is a block diagram illustrating the configuration of the recognition result aggregating unit 13 according to the present embodiment. FIG. 5 is a flowchart showing the operation of the recognition result aggregating unit 13 of this embodiment.

図4に示すように、本実施例の認識結果集約部13は、登録部131と、認識結果送信部132と、管理部133と、出力部134を含む構成である。   As illustrated in FIG. 4, the recognition result aggregating unit 13 according to the present exemplary embodiment includes a registration unit 131, a recognition result transmission unit 132, a management unit 133, and an output unit 134.

図5に示すように、登録部131は、音声認識結果集合、発話開始時刻、マイクIDを紐づけて認識結果データベース14に登録する(S131)。次に、認識結果送信部132は、ある認識結果修正部(ここでは認識結果修正部15−mとする)から要求信号を受信した場合、当該要求信号を送信した認識結果修正部15−mに、当該認識結果修正部15−mが要求信号において指定するマイクID(マイクID集合)に対応し、かつ最も発話開始時刻が古い音声認識結果集合、当該集合に対応するマイクID、当該マイクIDに対応する話者IDを送信し、認識結果修正部15−mに対応する校正者IDを、送信した音声認識結果集合に紐づけて、認識結果データベース14に登録する(S132)。上述のステップS131、S132は随時行われる。例えば、ステップS131は、何れかの収音部に対して音声の入力が開始されるたびに実行される。ステップS132は、何れかの認識結果修正部から要求信号を受信するたびに実行される。   As illustrated in FIG. 5, the registration unit 131 registers the speech recognition result set, the utterance start time, and the microphone ID in the recognition result database 14 in association with each other (S131). Next, when the recognition result transmission unit 132 receives a request signal from a certain recognition result correction unit (in this case, the recognition result correction unit 15-m), the recognition result transmission unit 132 transmits the request signal to the recognition result correction unit 15-m that has transmitted the request signal. The speech recognition result set corresponding to the microphone ID (microphone ID set) specified by the recognition result correction unit 15-m in the request signal and having the oldest utterance start time, the microphone ID corresponding to the set, and the microphone ID The corresponding speaker ID is transmitted, and the proofreader ID corresponding to the recognition result correction unit 15-m is registered in the recognition result database 14 in association with the transmitted speech recognition result set (S132). The above steps S131 and S132 are performed as needed. For example, step S131 is executed every time voice input is started to any of the sound collection units. Step S132 is executed every time a request signal is received from any recognition result correction unit.

管理部133は、予め定めた第1期間内に何れかの修正結果の返信があるかどうかを監視する(S133A)。この第1期間は、認識結果集約部13が各認識結果修正部に音声認識結果集合を送信した時刻を基準に、各認識結果修正部毎に設けられる期間である。例えば、第1期間を5分間とした場合、ある認識結果修正部15−mに認識結果集約部13が音声認識結果集合を送信した時刻を基準とし、この基準時刻から5分の間(第1期間内)に認識結果修正部15−mから修正結果が返信されるか否かを、管理部133は監視する。従って、管理部133は、それぞれ異なる基準時刻となる複数の認識結果修正部に対して、それぞれの基準時刻から第1期間内にそれぞれの認識結果修正部から修正結果の返信があるか否かを監視する。それぞれの基準時刻から第1期間内に何れの修正結果も返信されない場合(S133AN)、出力部134は、タイムアウト処理として、修正時間超過情報を対応する音声認識結果集合に紐づけて、認識結果データベース14に登録し、対応する未修正の音声認識結果集合を破棄、または当該集合内の何れかの音声認識結果(例えば、認識結果順位第1位の音声認識結果)を出力する(S134B)。それぞれの基準時刻から第1期間内に何れかの修正結果の返信があった場合(S133AY)、管理部133は、未修正の音声認識結果があるか否かを検査する(S133B)。未修正の音声認識結果集合がない場合、すなわち要求に応じて送信された全ての音声認識結果集合に対して、修正済みの音声認識結果が全て返信された場合には(S133BN)、後述するステップS134Aが実行される。一方、修正済みの音声認識結果の一部のみが返信された場合には(S133BY)、管理部133は、第2期間内に修正結果が全て返信されるか否かを監視する(S133C)。第2期間は第1期間よりも長い期間として、第1期間同様に音声認識結果集合を送信した時刻を基準に、各認識結果修正部毎に設けられる期間である。なおステップS133Bにおいて、未修正の音声認識結果集合に、最も古い発話開始時刻の集合が含まれる場合には、リアルタイム性が損なわれることを避けるために、第2期間を短い期間に変更してもよい。   The management unit 133 monitors whether or not any correction result is returned within a predetermined first period (S133A). This first period is a period provided for each recognition result correction unit based on the time when the recognition result aggregation unit 13 transmits the speech recognition result set to each recognition result correction unit. For example, when the first period is set to 5 minutes, the time when the recognition result aggregation unit 13 transmits the speech recognition result set to a certain recognition result correction unit 15-m is used as a reference for 5 minutes from the reference time (first The management unit 133 monitors whether or not the correction result is returned from the recognition result correction unit 15-m within the period. Therefore, the management unit 133 determines whether or not there is a response of a correction result from each recognition result correction unit within a first period from each reference time to a plurality of recognition result correction units having different reference times. Monitor. When no correction result is returned within the first period from each reference time (S133AN), the output unit 134 associates the correction time excess information with the corresponding speech recognition result set as a time-out process, and recognizes the result database. 14, the corresponding uncorrected speech recognition result set is discarded, or any speech recognition result in the set (for example, the speech recognition result having the first recognition result rank) is output (S134B). When any correction result is returned within the first period from each reference time (S133AY), the management unit 133 checks whether there is an uncorrected speech recognition result (S133B). If there is no uncorrected speech recognition result set, that is, if all corrected speech recognition results are returned for all speech recognition result sets transmitted in response to the request (S133BN), a step to be described later S134A is executed. On the other hand, when only a part of the corrected speech recognition result is returned (S133BY), the management unit 133 monitors whether all the correction results are returned within the second period (S133C). The second period is a period that is longer than the first period, and is provided for each recognition result correction unit based on the time when the speech recognition result set is transmitted as in the first period. In step S133B, if the uncorrected speech recognition result set includes the oldest utterance start time set, the second period may be changed to a short period in order to avoid impairing real-time performance. Good.

それぞれの基準時刻から第2期間内に全ての修正結果の返信がない場合(S133CN)、出力部134は、修正済み音声認識結果、修正済み話者IDを出力し、未修正の音声認識結果集合については破棄、または集合内の何れかの音声認識結果(例えば、認識結果順位第1位の音声認識結果)を出力する(S134C)。一方、それぞれの基準時刻から第2期間内に全ての修正結果が返信された場合(S133CY)、および前述したステップS133BNの場合には、出力部134は、全ての修正済み音声認識結果、修正済み話者IDを出力する(S134A)。   When there is no reply of all the correction results within the second period from each reference time (S133CN), the output unit 134 outputs the corrected speech recognition result and the corrected speaker ID, and the uncorrected speech recognition result set Is discarded, or any speech recognition result in the set (for example, the speech recognition result of the first recognition result rank) is output (S134C). On the other hand, when all the correction results are returned within the second period from each reference time (S133CY) and in the case of step S133BN described above, the output unit 134 displays all the corrected speech recognition results and corrected. The speaker ID is output (S134A).

以下、図6、図7を参照して、認識結果修正部15−1、…、15−m、…、15−M(以下では認識結果修正部15−mに代表させる)の構成、および動作について例外処理などを含め詳細に説明する。図6は、本実施例の認識結果修正部15−mの構成を示すブロック図である。図7は、本実施例の認識結果修正部15−mの動作を示すフローチャートである。   Hereinafter, with reference to FIGS. 6 and 7, the configuration and operation of the recognition result correction units 15-1,..., 15 -m,..., 15 -M (hereinafter represented by the recognition result correction unit 15 -m). Will be described in detail including exception handling. FIG. 6 is a block diagram illustrating a configuration of the recognition result correction unit 15-m according to the present embodiment. FIG. 7 is a flowchart showing the operation of the recognition result correction unit 15-m of this embodiment.

図6に示すように、本実施例の認識結果修正部15−mは、要求送信部151と、出力制御部152と、修正結果送信部153を含む構成である。   As illustrated in FIG. 6, the recognition result correction unit 15-m according to the present embodiment includes a request transmission unit 151, an output control unit 152, and a correction result transmission unit 153.

図7に示すように、要求送信部151は、認識結果集約部13にハートビート、および要求信号を送信する(S151)。なお、要求送信部151は、音声認識結果の修正中については、ハートビートのみを定期的に送信するものとする。ハートビートとは、ネットワーク上でコンピュータやネットワーク機器が、正常に稼働していること外部に知らせるために送信する信号のことである。   As illustrated in FIG. 7, the request transmission unit 151 transmits a heartbeat and a request signal to the recognition result aggregation unit 13 (S151). The request transmission unit 151 periodically transmits only the heartbeat while the speech recognition result is being corrected. A heartbeat is a signal transmitted to inform the outside that a computer or network device is operating normally on a network.

なお、前述した認識結果集約部13は、要求送信部151から要求信号を受信し、音声認識結果集合などを返信した後、当該音声認識結果集合の修正中であるにもかかわらず、要求送信部151からハートビートが届かなくなった場合、最後のハートビート受信から所定の時間経過後に、以下のA〜Cの何れかの処理を実行してもよい。A)認識結果集約部13は、該当する音声認識結果集合を破棄する。B)認識結果集約部13は、該当する音声認識結果集合内の何れかの音声認識結果(例えば、認識結果順位第1位の音声認識結果)を出力する。C)認識結果集約部13は、該当の音声認識結果のステータス「修正中」を「未修正」に変更し、次回の要求信号受信時に、要求信号を送信した認識結果修正部15−mに該当の音声認識結果を返信する。   Note that the recognition result aggregating unit 13 described above receives the request signal from the request transmission unit 151 and returns the speech recognition result set and the like, and then the request transmission unit When the heartbeat does not reach from 151, any of the following processes A to C may be executed after a predetermined time has elapsed since the last heartbeat was received. A) The recognition result aggregation unit 13 discards the corresponding speech recognition result set. B) The recognition result aggregating unit 13 outputs one of the speech recognition results in the corresponding speech recognition result set (for example, the speech recognition result of the first recognition result rank). C) The recognition result aggregating unit 13 changes the status “correcting” of the corresponding speech recognition result to “uncorrected”, and corresponds to the recognition result correcting unit 15-m that transmitted the request signal when the next request signal is received. Returns the voice recognition result of.

次に、出力制御部152は、認識結果集約部13から音声認識結果集合を受信し、信頼度が閾値α未満の単語を所定の文字列(例えば、全角スペースや、□記号など)に変換して当該集合を出力し、対応する話者IDを編集可能な状態で出力する(S152A)。前述したように話者IDはマイクIDに紐づけられているが、話者が使用するマイク(収音部)が交換されたり、マイク(収音部)を割り当てられていない話者が発言しようとしたとき、マイク(収音部)が移動した場合などには、予め紐づけられたマイクIDと話者IDの関係が変更される場合がある。校正者が、話者の発言などを直接、または間接に聴取できる状況にあるときなど、マイクIDと話者IDの関係が変更された場合にはこれに気付き、話者IDを修正することが可能である。   Next, the output control unit 152 receives the speech recognition result set from the recognition result aggregating unit 13, and converts a word whose reliability is less than the threshold value α into a predetermined character string (for example, a full-width space or a □ symbol). The set is output, and the corresponding speaker ID is output in an editable state (S152A). As described above, the speaker ID is linked to the microphone ID, but the speaker (sound collecting unit) used by the speaker is exchanged or the speaker who is not assigned the microphone (sound collecting unit) speaks. When the microphone (sound collecting unit) moves, the relationship between the microphone ID and the speaker ID associated in advance may be changed. When the relationship between the microphone ID and the speaker ID is changed, such as when the proofreader can directly or indirectly listen to the speaker's remarks, this may be noticed and the speaker ID may be corrected. Is possible.

出力制御部152は、校正者が何れかの音声認識結果を選択するか否かを監視している(S152B)。なお、校正者による音声認識結果の選択は、マウス、キーボードその他の入力手段を用いて実行されるが、これに限定されない。校正者が何れの音声認識結果も選択していない場合(デフォルトの状態、S152BN)、出力制御部152は、認識結果順位第1位の音声認識結果を編集窓に編集可能な状態で出力し、信頼度が閾値α以上であって閾値β未満の単語にショートカットキー(本明細書では短縮操作ともいう)を割り当てる(S152D)。一方、校正者が何れかの音声認識結果を選択した場合(S152BY)、出力制御部152は、校正者が選択した音声認識結果を編集窓に編集可能な状態で出力し、信頼度が閾値α以上であって閾値β未満の単語にショートカットキーを割り当てる(S152C)。なお、値αは値βよりも小さい値であるものとする。従って、ステップS152Aにおいて、信頼度が閾値α未満の単語(信頼度が最も低い部類に属する単語)については、文字列の変換が行われ、ステップS152Cにおいて、信頼度が閾値α以上であって閾値β未満の単語(信頼度が中程度の部類に属する単語)については、ショートカットキーの割り当てが行われることになる。信頼度が最も低い部類の単語についてはおよそ正解とかけ離れた奇異な単語であることも多いため、これをそのまま表示することで校正作業の妨げになる場合もあり、当該単語については、校正者による修正が入ることがほとんどであるから、校正者が目視しやすいように所定の文字列に変換することとした。また、信頼度が中程度の単語については、この単語がそのまま正解となる場合もあるため、認識結果をそのまま表示しておくことに意義はあるものの、校正者によって修正される可能性も高いため、校正者が速やかに該当箇所を修正できるようにショートカットキーを割り当てることとした。なお校正者は、例えばキーボードの矢印キーの押下によって認識結果を単語単位で移動することができるものとし、削除(Delete)キーの押下によって、単語ごと文字列を削除することができるものとする。   The output control unit 152 monitors whether or not the proofreader selects any speech recognition result (S152B). The selection of the speech recognition result by the proofreader is executed using a mouse, a keyboard, or other input means, but is not limited to this. When the proofreader has not selected any speech recognition result (default state, S152BN), the output control unit 152 outputs the speech recognition result having the first recognition result rank in the edit window in an editable state. A shortcut key (also referred to as an abbreviated operation in this specification) is assigned to a word whose reliability is greater than or equal to the threshold value α and less than the threshold value β (S152D). On the other hand, when the proofreader selects any speech recognition result (S152BY), the output control unit 152 outputs the speech recognition result selected by the proofreader in an editable state in the edit window, and the reliability is the threshold value α. Shortcut keys are assigned to words that are equal to or smaller than the threshold β (S152C). It is assumed that the value α is smaller than the value β. Therefore, in step S152A, for words whose reliability is less than the threshold value α (words belonging to the category with the lowest reliability), character string conversion is performed, and in step S152C, the reliability is equal to or higher than the threshold value α. Shortcut keys are assigned to words less than β (words belonging to a category having a medium reliability). Since the word of the category with the lowest reliability is often an odd word that is far from the correct answer, displaying it as it is may interfere with the proofreading work. Since corrections are mostly made, it is decided to convert them into predetermined character strings so that the proofreader can easily see them. Also, for words with medium reliability, this word may be correct as it is, so it is meaningful to display the recognition result as it is, but it is highly likely that it will be corrected by the proofreader. Therefore, a shortcut key is assigned so that the proofreader can quickly correct the corresponding part. It is assumed that the proofreader can move the recognition result in units of words by pressing an arrow key on the keyboard, for example, and can delete the character string for each word by pressing the delete key.

校正者は上述のように修正した音声認識結果については結果出力を選択することができる。一方、校正者は、修正前の音声認識結果集合や、修正途中の音声認識結果などについて破棄を選択することができる。校正者が修正前の音声認識結果集合や、修正途中の音声認識結果などを破棄するのは、例えば修正作業が長引いて、後続の発話が次々に発生してしまい、校正作業のリアルタイム性が損なわれていると判断された場合などである。校正者は破棄を選択することで、受け取った音声認識結果集合をスキップして次の音声認識結果集合を受け取り、自分の校正作業が現在の発話内容から大きく後退しないようにすることができる。   The proofreader can select a result output for the speech recognition result corrected as described above. On the other hand, the proofreader can select discarding of a speech recognition result set before correction, a speech recognition result being corrected, and the like. The reason why the proofreader discards the speech recognition result set before correction or the speech recognition result in the middle of correction is because, for example, the correction work is prolonged and subsequent utterances occur one after another, and the real-time property of the calibration work is impaired. Such as when it is determined that By selecting discard, the proofreader can skip the received speech recognition result set and receive the next speech recognition result set, so that his / her proofreading work does not greatly retreat from the current utterance content.

修正結果送信部153は、校正者によって前述の結果出力、破棄の何れが選択されるかを監視している(S153A)。校正者によって破棄が選択された場合(S153A破棄)、修正結果送信部153は、音声認識結果集合を破棄した旨の通知(破棄通知)を認識結果集約部13に送信する(S153C)。一方、校正者によって結果出力が選択された場合(S153A結果出力)、修正結果送信部153は、修正済み話者IDと修正済み音声認識結果を認識結果集約部13に送信する(S153B)。   The correction result transmission unit 153 monitors whether the above-mentioned result output or discard is selected by the proofreader (S153A). When discard is selected by the proofreader (S153A discard), the modification result transmission unit 153 transmits a notification (discard notification) that the speech recognition result set has been discarded to the recognition result aggregation unit 13 (S153C). On the other hand, when the result output is selected by the proofreader (S153A result output), the correction result transmission unit 153 transmits the corrected speaker ID and the corrected speech recognition result to the recognition result aggregation unit 13 (S153B).

認識結果集約部13における破棄通知の取扱いについて以下に述べる。例えば認識結果集約部13が全ての認識結果修正部から破棄通知を受信した場合、認識結果集約部13はステップS134Bを実行することとしてもよい。同様に、認識結果集約部13が一部の認識結果修正部から破棄通知を受信した場合、認識結果集約部13はステップS134Cを実行することとしてもよい。   The handling of the discard notification in the recognition result aggregation unit 13 will be described below. For example, when the recognition result aggregating unit 13 receives discard notifications from all the recognition result correcting units, the recognition result aggregating unit 13 may execute step S134B. Similarly, when the recognition result aggregating unit 13 receives a discard notification from some of the recognition result correcting units, the recognition result aggregating unit 13 may execute step S134C.

一方、破棄通知は修正済み音声認識結果の範疇に入るものと解してもよい。この場合、認識結果集約部13は音声認識結果の一部、または全部が破棄通知で構成されていた場合であってもステップS134Aを実行する。この場合、認識結果集約部13は破棄通知に対応する音声認識結果集合を破棄して、対応する音声認識結果としては何も表示しないこととしてもよいし、対応する音声認識結果として該当の音声認識結果集合のうち何れかの音声認識結果(例えば、認識結果順位第1位の音声認識結果)を出力することとしてもよい。   On the other hand, the discard notification may be interpreted as being within the category of the corrected speech recognition result. In this case, the recognition result aggregating unit 13 executes step S134A even if a part or all of the speech recognition result is constituted by a discard notification. In this case, the recognition result aggregating unit 13 may discard the speech recognition result set corresponding to the discard notification and display nothing as the corresponding speech recognition result, or the corresponding speech recognition result as the corresponding speech recognition result. Any speech recognition result in the result set (for example, the speech recognition result of the first recognition result ranking) may be output.

以下、図8、図9を参照して、出力制御部152の動作例について説明する。図8は、校正者が参照する画面表示を例示する図である。図9は、編集窓に表示される音声認識結果に割り当てられるショートカットキーを例示する図である。   Hereinafter, an operation example of the output control unit 152 will be described with reference to FIGS. 8 and 9. FIG. 8 is a diagram illustrating a screen display referred to by the proofreader. FIG. 9 is a diagram illustrating shortcut keys assigned to the speech recognition results displayed in the editing window.

図8の例では、発話「今日はいい天気ですね」に対して、音声認識結果「今日はいい天気ですね」「今日はいい天気です」「今日はいい天気ですな」「球はいい天気ですね」…などを含む音声認識結果集合が生成されたものとする。加えてこの例では、単語「球」に対して、閾値α未満の信頼度Cが付与されており、単語「ですな」に対して、閾値α以上β未満の信頼度が付与されているものとする。またこの発話に対応するマイクIDにデフォルトで紐づけられている話者は○山△男氏であるものとする。話者IDは、数字や英字などで構成されてもよいが、同図の例では、話者の氏名である「○山△男」がそのまま話者IDとして利用されている。   In the example of FIG. 8, the speech recognition results “Today is good weather”, “Today is good weather”, “Today is good weather”, “Today is good weather” for the utterance “Today is good weather” It is assumed that a speech recognition result set including “...” is generated. In addition, in this example, the word “sphere” is given a reliability C that is less than the threshold α, and the word “dana” is given a reliability that is greater than or equal to the threshold α and less than β. And Further, it is assumed that the speaker linked by default to the microphone ID corresponding to this utterance is Mr. Yamayama. The speaker ID may be composed of numbers, English letters, etc., but in the example shown in the figure, the name of the speaker “Yoyama △ male” is used as it is as the speaker ID.

この例において、校正者が音声認識結果の何れかを選択していない状態(デフォルトの状態)では、同図に示すように認識結果順位第1位の音声認識結果である「今日はいい天気ですね」が編集窓に編集可能な状態で出力される。この他にも、校正者が閲覧する画面には、修正前の話者ID、校正者が何れかの音声認識結果を選択する際に用いる音声認識結果の一覧、校正者が話者IDの修正に用いる話者IDリストの一覧を表示することができる。   In this example, when the proofreader has not selected one of the speech recognition results (default state), as shown in the figure, the speech recognition result of the first recognition result ranking is “Today is good weather. "Ne" is output to the editing window in an editable state. In addition to this, on the screen viewed by the proofreader, the speaker ID before correction, a list of voice recognition results used when the proofreader selects any voice recognition result, and the proofreader corrects the speaker ID. It is possible to display a list of speaker ID lists used in the above.

修正前の話者IDについては、前述したように、校正者によって編集可能な状態で出力されているものとする。音声認識結果の一覧については、閾値α未満の信頼度Cが付与された単語「球」を所定の文字列、例えば□に変換して出力することができる。   As described above, the speaker ID before correction is output in a state where it can be edited by the proofreader. Regarding the list of speech recognition results, the word “sphere” to which the reliability C less than the threshold value α is assigned can be converted into a predetermined character string, for example, □, and output.

例えば校正者によって音声認識結果「球はいい天気ですな」が選択された場合、図9に示すように、校正者が選択した音声認識結果「球はいい天気ですな」を編集窓に編集可能な状態で出力する。信頼度が閾値α未満の単語「球」は所定の文字列「□」に変換されたうえで、デフォルトで選択状態かつ編集可能な状態で出力される。一方、信頼度が閾値α以上であって閾値β未満の単語「ですな」にショートカットキー[Altキー+1]が割り当てられる。校正者がショートカットキー[Altキー+1]を押下することにより、単語「ですな」が選択状態かつ編集可能な状態に遷移する。閾値α以上閾値β未満の単語が一つの音声認識結果中に複数存在する場合には、これらの単語にはそれぞれ別のショートカットキーが割り当てられる。   For example, if the proofreader selects the speech recognition result “Sphere is good weather”, the proofreader's selected speech recognition result “Sphere is good weather” can be edited in the editing window as shown in FIG. Outputs in the correct state. The word “sphere” having a reliability less than the threshold value α is converted into a predetermined character string “□”, and is output in a selected state and editable state by default. On the other hand, the shortcut key [Alt key + 1] is assigned to the word “Dana” whose reliability is equal to or higher than the threshold α and lower than the threshold β. When the proofreader presses the shortcut key [Alt key + 1], the word “Dana” changes to a selected state and an editable state. When a plurality of words having a threshold value α and less than the threshold value β exist in one speech recognition result, different shortcut keys are assigned to these words.

本実施例の音声認識結果編集装置1は、校正者(認識結果修正部)から認識結果の割当要求(要求信号)が来るたびに発話毎に校正者が割り当たり、かつ校正者割り当て後一定時間経過後に未修正となっている音声認識結果集合を破棄し、または当該集合内から音声認識結果を選択して出力するため、処理の遅い校正者がいる場合であっても全体の処理が滞ることなく認識結果の修正が可能である。また本実施例の音声認識結果編集装置1は、校正者が要求信号において自身が担当するマイクIDを指定するため、校正者が複数人いる場合には、複数の収音部(マイク)が存在する場合であっても並列に校正処理を行うことができ、複数の話者が同時に発声している場合であっても時系列順、かつリアルタイムに近い速度で修正結果を出力できる。また本実施例の音声認識結果編集装置1は、信頼度の低い単語を特定の文字列に置換したり、ショートカットキーなどを割り当てたりすることで、校正者が効率的に編集作業を行えるようにしたため、校正者の修正時間を削減することができる。   The speech recognition result editing apparatus 1 according to the present embodiment assigns a proofreader for each utterance every time a recognition result assignment request (request signal) is received from a proofreader (recognition result correction unit), and is a fixed time after proofreader assignment. Since the unrecognized speech recognition result set after the lapse is discarded, or the speech recognition result is selected and output from the set, the entire processing is delayed even if there is a slow proofreader. It is possible to correct the recognition result. The speech recognition result editing apparatus 1 according to the present embodiment specifies a microphone ID that the proofreader is responsible for in the request signal, so that when there are a plurality of proofreaders, there are a plurality of sound collection units (microphones). Even in this case, calibration processing can be performed in parallel, and correction results can be output in chronological order and at a speed close to real time even when a plurality of speakers are simultaneously speaking. In addition, the speech recognition result editing apparatus 1 according to the present embodiment allows the proofreader to efficiently perform editing work by replacing a low-reliability word with a specific character string or assigning a shortcut key or the like. Therefore, the correction time for the proofreader can be reduced.

なお、本実施例の音声認識結果編集装置1は、複数のハードウェアを備える音声認識結果編集システムとして構成されてもよい。この場合、例えばN個の収音部11−1、…、11−n、…、11−NをそれぞれN個の収音装置とし、音声認識部12と認識結果集約部13と認識結果データベース14とを含む制御装置を構成し、M個の認識結果修正部15−1、…、15−m、…、15−Mを、M個の認識結果修正装置とし、これらのハードウェアからなる音声認識結果編集システムとしてもよい。   The speech recognition result editing apparatus 1 according to the present embodiment may be configured as a speech recognition result editing system including a plurality of hardware. In this case, for example, the N sound collecting units 11-1,..., 11-n,..., 11-N are N sound collecting devices, respectively, and the speech recognition unit 12, the recognition result aggregating unit 13, and the recognition result database 14 are used. , 15-m, M-recognition result correction units 15-1,..., 15-M are used as M recognition result correction devices. A result editing system may be used.

<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity. Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。   The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。   In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。   As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Claims (8)

音声信号を取得する収音部と、
前記音声信号を音声認識して、単語ごとに信頼度が付与された音声認識結果を複数含む音声認識結果集合を前記収音部毎、発話毎に取得する音声認識部と、
前記音声認識結果集合と、対応する収音部の識別子であるマイクIDと、対応する発話の発話開始時刻とを紐づけて所定の記憶領域に記憶し、要求信号を受信した場合に、前記要求信号により指定されたマイクIDに対応し、かつ発話開始時刻が所定の条件を充たす音声認識結果集合を送信する認識結果集約部と、
前記要求信号を送信し、前記音声認識結果集合を受信した場合に、当該音声認識結果集合における各音声認識結果に含まれる各単語の信頼度が所定の条件を充たす単語を所定の文字列に変換する処理、前記信頼度が所定の条件を充たす単語を編集可能な状態に予め設定する処理、前記信頼度が所定の条件を充たす単語を編集可能とするための短縮操作を割り当てる処理のうち一つ以上の処理を実行し、前記音声認識結果集合に含まれる音声認識結果の全部または一部を表示する認識結果修正部と、
を含む音声認識結果編集装置。
A sound collection unit for obtaining an audio signal;
A speech recognition unit that recognizes the speech signal and obtains a speech recognition result set including a plurality of speech recognition results to which reliability is given for each word for each sound collection unit and each utterance;
The speech recognition result set, the microphone ID that is the identifier of the corresponding sound pickup unit, and the utterance start time of the corresponding utterance are linked and stored in a predetermined storage area, and when the request signal is received, the request A recognition result aggregating unit that transmits a speech recognition result set corresponding to the microphone ID specified by the signal and whose utterance start time satisfies a predetermined condition;
When the request signal is transmitted and the speech recognition result set is received, a word satisfying a predetermined condition for the reliability of each word included in each speech recognition result in the speech recognition result set is converted into a predetermined character string. One of processing for assigning an abbreviated operation for enabling editing of a word whose reliability satisfies a predetermined condition, and processing for presetting a word satisfying a predetermined condition for reliability. A recognition result correction unit that performs the above processing and displays all or part of the speech recognition results included in the speech recognition result set;
A speech recognition result editing apparatus including:
請求項1に記載の音声認識結果編集装置であって、
前記認識結果修正部は、
校正者によって一つの発話につき一つずつ選択されて修正された音声認識結果と、次回の要求信号を送信し、
前記認識結果集約部は、
受信した修正済みの音声認識結果を出力する
音声認識結果編集装置。
The speech recognition result editing apparatus according to claim 1,
The recognition result correction unit
The proofreader sends a speech recognition result selected and corrected one by one for each utterance and the next request signal,
The recognition result aggregating unit
A speech recognition result editing apparatus for outputting a received corrected speech recognition result.
請求項2に記載の音声認識結果編集装置であって、
前記マイクIDは、話者を特定する話者IDと予め紐づけられているものとし、
前記認識結果集約部は、
前記音声認識結果集合とともに対応する話者IDを送信し、
前記認識結果修正部は、
前記話者IDを編集可能な状態で表示し、前記修正された音声認識結果とともに修正された話者IDを送信し、
前記認識結果集約部は、
受信した修正済みの音声認識結果と受信した修正済みの話者IDを出力する
音声認識結果編集装置。
The speech recognition result editing apparatus according to claim 2,
The microphone ID is associated with a speaker ID that identifies the speaker in advance.
The recognition result aggregating unit
A corresponding speaker ID is transmitted together with the speech recognition result set;
The recognition result correction unit
The speaker ID is displayed in an editable state, and the corrected speaker ID is transmitted together with the corrected voice recognition result.
The recognition result aggregating unit
A speech recognition result editing apparatus that outputs a received corrected speech recognition result and a received corrected speaker ID.
請求項2又は3に記載の音声認識結果編集装置であって、
前記認識結果集約部は、
所定の期間内に修正済みの音声認識結果を受信しない場合に、対応する音声認識結果集合を破棄する処理、対応する音声認識結果集合内の何れかの音声認識結果を出力する処理のうち、一つ以上の処理を実行する
音声認識結果編集装置。
The speech recognition result editing apparatus according to claim 2 or 3,
The recognition result aggregating unit
One of a process of discarding a corresponding speech recognition result set and a process of outputting any speech recognition result in the corresponding speech recognition result set when a corrected speech recognition result is not received within a predetermined period. A speech recognition result editing apparatus that executes two or more processes.
請求項1から4の何れかに記載の音声認識結果編集装置であって、
値αは値βよりも小さいものとし、
前記認識結果修正部は、
前記信頼度が所定の閾値α未満である単語を所定の文字列に変換し、前記信頼度が所定の閾値α以上であって所定の閾値β未満である単語を編集可能とするための短縮操作を割り当て前記音声認識結果集合に含まれる音声認識結果の全部または一部を表示する
音声認識結果編集装置。
The speech recognition result editing apparatus according to any one of claims 1 to 4,
The value α is assumed to be smaller than the value β,
The recognition result correction unit
A shortening operation for converting a word whose reliability is less than a predetermined threshold α into a predetermined character string and enabling editing of a word whose reliability is equal to or higher than the predetermined threshold α and lower than the predetermined threshold β. A speech recognition result editing apparatus for displaying all or part of the speech recognition results included in the speech recognition result set.
音声信号を取得する収音部を含む音声認識結果編集装置が実行する音声認識結果編集方法であって、
前記音声信号を音声認識して、単語ごとに信頼度が付与された音声認識結果を複数含む音声認識結果集合を前記収音部毎、発話毎に取得するステップと、
前記音声認識結果集合と、対応する収音部の識別子であるマイクIDと、対応する発話の発話開始時刻とを紐づけて所定の記憶領域に記憶するステップと、
要求信号を送信するステップと、
前記要求信号を受信した場合に、前記要求信号により指定されたマイクIDに対応し、かつ発話開始時刻が所定の条件を充たす音声認識結果集合を送信するステップと、
前記音声認識結果集合を受信した場合に、当該音声認識結果集合における各音声認識結果に含まれる各単語の信頼度が所定の条件を充たす単語を所定の文字列に変換する処理、前記信頼度が所定の条件を充たす単語を編集可能な状態に予め設定する処理、前記信頼度が所定の条件を充たす単語を編集可能とするための短縮操作を割り当てる処理のうち一つ以上の処理を実行し、前記音声認識結果集合に含まれる音声認識結果の全部または一部を表示するステップと、
を含む音声認識結果編集方法。
A speech recognition result editing method executed by a speech recognition result editing apparatus including a sound collection unit for acquiring a speech signal,
Recognizing the speech signal, obtaining a speech recognition result set including a plurality of speech recognition results with reliability given to each word for each sound collecting unit and each utterance;
Storing the speech recognition result set, the microphone ID that is the identifier of the corresponding sound collection unit, and the utterance start time of the corresponding utterance in a predetermined storage area;
Sending a request signal;
When receiving the request signal, transmitting a speech recognition result set corresponding to the microphone ID specified by the request signal and having an utterance start time satisfying a predetermined condition;
When the speech recognition result set is received, a process for converting a word satisfying a predetermined condition for each word included in each speech recognition result in the speech recognition result set to a predetermined character string, the reliability is Executing at least one of a process of presetting a word satisfying a predetermined condition into an editable state, a process of assigning a shortening operation for enabling the word whose reliability satisfies a predetermined condition, and Displaying all or part of the speech recognition results included in the speech recognition result set;
Speech recognition result editing method including
請求項6に記載の音声認識結果編集方法であって、
前記音声認識結果編集装置は、
校正者によって一つの発話につき一つずつ選択されて修正された音声認識結果と、次回の要求信号を送信するステップと、
受信した修正済みの音声認識結果を出力するステップを実行する
音声認識結果編集方法。
The speech recognition result editing method according to claim 6,
The speech recognition result editing device
Transmitting a speech recognition result selected and corrected one by one per utterance by the proofreader, and a next request signal;
A speech recognition result editing method for executing a step of outputting a received corrected speech recognition result.
コンピュータを請求項1から5の何れかに記載の音声認識結果編集装置として機能させるプログラム。   A program for causing a computer to function as the speech recognition result editing apparatus according to any one of claims 1 to 5.
JP2015163571A 2015-08-21 2015-08-21 Speech recognition result editing apparatus, speech recognition result editing method, program Active JP6457353B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015163571A JP6457353B2 (en) 2015-08-21 2015-08-21 Speech recognition result editing apparatus, speech recognition result editing method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015163571A JP6457353B2 (en) 2015-08-21 2015-08-21 Speech recognition result editing apparatus, speech recognition result editing method, program

Publications (2)

Publication Number Publication Date
JP2017040856A true JP2017040856A (en) 2017-02-23
JP6457353B2 JP6457353B2 (en) 2019-01-23

Family

ID=58206446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015163571A Active JP6457353B2 (en) 2015-08-21 2015-08-21 Speech recognition result editing apparatus, speech recognition result editing method, program

Country Status (1)

Country Link
JP (1) JP6457353B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424611A (en) * 2017-07-07 2017-12-01 歌尔科技有限公司 Voice interactive method and device
JP2019144310A (en) * 2018-02-16 2019-08-29 キヤノンマーケティングジャパン株式会社 Information processor, information processing system, control method and program
JP2020187313A (en) * 2019-05-17 2020-11-19 日本放送協会 Voice recognition device, recognition result output control device, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262307A (en) * 1994-03-22 1995-10-13 N T T Data Tsushin Kk Recognized result display method and display controller
JP2002101205A (en) * 2000-09-22 2002-04-05 Sharp Corp Conference support equipment and method, and storage medium used therein
JP2005128130A (en) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc Speech recognition device, speech recognition method, and program
JP2013238880A (en) * 2013-07-09 2013-11-28 Kyocera Corp Portable terminal, editing guiding program, and editing guiding method
JP2014202848A (en) * 2013-04-03 2014-10-27 株式会社東芝 Text generation device, method and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262307A (en) * 1994-03-22 1995-10-13 N T T Data Tsushin Kk Recognized result display method and display controller
JP2002101205A (en) * 2000-09-22 2002-04-05 Sharp Corp Conference support equipment and method, and storage medium used therein
JP2005128130A (en) * 2003-10-22 2005-05-19 Toyota Central Res & Dev Lab Inc Speech recognition device, speech recognition method, and program
JP2014202848A (en) * 2013-04-03 2014-10-27 株式会社東芝 Text generation device, method and program
JP2013238880A (en) * 2013-07-09 2013-11-28 Kyocera Corp Portable terminal, editing guiding program, and editing guiding method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
本間真一: "生字幕制作のための音声認識", NHK技研R&D, vol. No.122, JPN6018030132, July 2010 (2010-07-01), JP, pages 25 - 31 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107424611A (en) * 2017-07-07 2017-12-01 歌尔科技有限公司 Voice interactive method and device
CN107424611B (en) * 2017-07-07 2021-10-15 歌尔科技有限公司 Voice interaction method and device
JP2019144310A (en) * 2018-02-16 2019-08-29 キヤノンマーケティングジャパン株式会社 Information processor, information processing system, control method and program
JP7231806B2 (en) 2018-02-16 2023-03-02 キヤノンマーケティングジャパン株式会社 Information processing device, information processing system, control method, and program
JP2020187313A (en) * 2019-05-17 2020-11-19 日本放送協会 Voice recognition device, recognition result output control device, and program

Also Published As

Publication number Publication date
JP6457353B2 (en) 2019-01-23

Similar Documents

Publication Publication Date Title
US10380206B2 (en) Search engine inference based virtual assistance
US10599703B2 (en) Electronic meeting question management
US7899670B1 (en) Server-based speech recognition
JP2020102228A (en) Methods and systems for displaying contextually relevant information regarding media asset
WO2018095219A1 (en) Media information processing method and device
JP6457353B2 (en) Speech recognition result editing apparatus, speech recognition result editing method, program
WO2021218981A1 (en) Method and apparatus for generating interaction record, and device and medium
US20240153492A1 (en) Method and apparatus for generating hint words for automated speech recognition
JP7462070B2 (en) INTERACTION INFORMATION PROCESSING METHOD, APPARATUS, ELECTRONIC DEVICE, AND STORAGE MEDIUM
JP2023549634A (en) Smart query buffering mechanism
JP7417272B2 (en) Terminal device, server device, distribution method, learning device acquisition method, and program
US11205430B2 (en) Method and apparatus for generating hint words for automated speech recognition
US20220374618A1 (en) Interaction information processing method and apparatus, device, and medium
US11895367B2 (en) Systems and methods for resolving recording conflicts
US11936487B2 (en) Systems and methods for associating context to subtitles during live events
US11086592B1 (en) Distribution of audio recording for social networks
US8196046B2 (en) Parallel visual radio station selection
WO2022186298A1 (en) Information processing device, information processing method, and information processing program
US20240187271A1 (en) Systems and methods for associating context to subtitles during live events
US11810573B2 (en) Assisted speech recognition
CN113593568B (en) Method, system, device, equipment and storage medium for converting voice into text
CN112183794B (en) Method and system for synchronizing conference information based on double intermediate stations
US20240020463A1 (en) Text based contextual audio annotation
WO2021084718A1 (en) Voice playback program, voice playback method, and voice playback system
US20220222451A1 (en) Audio processing apparatus, method for producing corpus of audio pair, and storage medium on which program is stored

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181220

R150 Certificate of patent or registration of utility model

Ref document number: 6457353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150