JP5533865B2 - Editing support system, editing support method, and editing support program - Google Patents
Editing support system, editing support method, and editing support program Download PDFInfo
- Publication number
- JP5533865B2 JP5533865B2 JP2011519574A JP2011519574A JP5533865B2 JP 5533865 B2 JP5533865 B2 JP 5533865B2 JP 2011519574 A JP2011519574 A JP 2011519574A JP 2011519574 A JP2011519574 A JP 2011519574A JP 5533865 B2 JP5533865 B2 JP 5533865B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- text data
- editing support
- support system
- divided data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Description
本発明は、編集支援システム、編集支援方法および編集支援プログラムに関する。 The present invention relates to an editing support system, an editing support method, and an editing support program.
近年、たとえば会議等、複数の発言者が存在する場において、議事録作成を容易にする等の目的のために、音声認識技術を用いることが検討されている。音声認識技術を用いて議事録等を作成する場合、ユーザが音声を聞きながら音声認識結果のテキストを表示させて、誤認識部分の修正作業を行うことがある。 In recent years, use of speech recognition technology has been studied for the purpose of facilitating the creation of minutes, for example, when there are a plurality of speakers such as a conference. When creating a minutes or the like using the voice recognition technology, the user may correct the misrecognized portion by displaying the text of the voice recognition result while listening to the voice.
特許文献1(特開2006−119534号公報)には、生成される字幕に対する責任者によって操作され、音声認識装置による音声認識結果に対して編集すべき部分を特定するマウス字幕編集装置と、マウス字幕編集装置から渡された字幕に対し、キーボードにより、音声に対応する正しい文字列を入力する作業を行う操作者によって操作されるキーボード字幕編集装置とを含むシステムが記載されている。これにより、キーボード字幕編集装置の操作者を比較的スキルレベルが低く、責任も低い人とすることができ、人件費を節約できるという効果が期待できるとされている。 Japanese Patent Laid-Open No. 2006-119534 discloses a mouse subtitle editing apparatus that is operated by a person responsible for generated subtitles and specifies a portion to be edited with respect to a voice recognition result by the voice recognition apparatus, and a mouse A system is described that includes a keyboard subtitle editing apparatus that is operated by an operator who performs an operation of inputting a correct character string corresponding to sound with a keyboard with respect to subtitles passed from the subtitle editing apparatus. As a result, it can be expected that the operator of the keyboard subtitle editing apparatus can be a person with a relatively low skill level and low responsibility and can save labor costs.
しかし、特許文献1に記載された技術では、マウス字幕編集装置を操作する責任者が音声認識結果の全部に対して編集すべき部分を特定する作業を行う必要があり、迅速な処理ができないという問題がある。また、同じ箇所について、責任者が特定するとともに、キーボード字幕編集装置の操作者が文字列を入力するという作業を行い、複数の人でチェックすることになり、効率が悪いという問題もあった。
However, in the technique described in
一方、従来、ある程度のレベルの作業者を複数確保できていて、複数の作業者で分担して音声認識結果の編集作業を行いたい場合や、音声認識結果の特定の箇所を緊急で編集したいような場合に、編集するためのデータを効率よく準備する手順がなかった。そのため、音声認識結果の部分的な編集作業を迅速に行うことができないという問題があった。 On the other hand, if you have secured several workers at a certain level and you want to edit the speech recognition results by sharing them among the workers, or you want to edit a specific part of the speech recognition results urgently In such cases, there was no procedure for efficiently preparing data for editing. Therefore, there has been a problem that partial editing of the speech recognition result cannot be performed quickly.
本発明の目的は、上述した課題である、音声認識結果の部分的な編集作業を迅速に行うことができないという問題を解決する編集支援システムおよび編集支援方法を提供することにある。 An object of the present invention is to provide an editing support system and an editing support method that solve the above-described problem that a partial editing operation of a speech recognition result cannot be performed quickly.
本発明によれば、
音声データを時刻情報に対応づけて記憶する音声データ記憶手段と、
前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段と、
前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段と、
前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段と、
前記指示受付手段により受け付けられた選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段と、
を含む音声認識結果の編集支援システムが提供される。According to the present invention,
Voice data storage means for storing voice data in association with time information;
Speech recognition result storage means for storing text data of a speech recognition result of the speech data in a predetermined format in association with time information in units of words;
First display processing means for displaying the text data in a predetermined display area and displaying a cursor for selecting the text data in the display area;
Instruction accepting means for accepting an arbitrary selection range of the text data displayed by the first display processing means by the cursor and accepting an instruction for generating divided data;
A divided data generating unit that extracts the text data included in the selection range received by the instruction receiving unit while maintaining the predetermined format from the voice recognition result storage unit, and generates divided data;
A speech recognition result editing support system including
本発明によれば、
音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段から前記テキストデータを読み出し、前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示ステップと、
前記第1の表示ステップにおいて表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付けるステップと、
前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成するステップと、
を含む音声認識結果の編集支援方法が提供される。According to the present invention,
The text data is read from the voice recognition result storage means for storing the text data of the voice recognition result of the voice data in a predetermined format in association with time information in units of words, and the text data is displayed in a predetermined display area. A first display step of displaying a cursor for selecting the text data in the display area;
Receiving an arbitrary selection range of the text data displayed in the first display step with the cursor and receiving an instruction to generate divided data;
Extracting the text data included in the selection range from the voice recognition result storage means while maintaining the predetermined format, and generating divided data;
A speech recognition result editing support method is provided.
本発明によれば、
コンピュータを、
音声データを時刻情報に対応づけて記憶する音声データ記憶手段、
前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段、
前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段、
前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段、
前記指示受付手段により受け付けられた選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段、
として機能させる音声認識結果の編集支援プログラムが提供される。According to the present invention,
Computer
Audio data storage means for storing audio data in association with time information;
Voice recognition result storage means for storing text data of a voice recognition result of the voice data in a predetermined format in association with time information in units of words;
First display processing means for displaying the text data in a predetermined display area and displaying a cursor for selecting the text data in the display area;
Instruction accepting means for accepting an arbitrary selection range of the text data displayed by the first display processing means by the cursor and accepting an instruction for generating divided data;
A divided data generating unit that extracts the text data included in the selection range received by the instruction receiving unit while maintaining the predetermined format from the voice recognition result storage unit, and generates divided data;
A speech recognition result editing support program is provided.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
本発明によれば、音声認識結果の部分的な編集作業を迅速に行うことができる。 According to the present invention, it is possible to quickly perform a partial editing operation of a speech recognition result.
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。 The above-described object and other objects, features, and advantages will become more apparent from the preferred embodiments described below and the accompanying drawings.
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様の構成要素には同様の符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same constituent elements are denoted by the same reference numerals, and the description thereof is omitted as appropriate.
図1は、本実施の形態における編集支援システムの構成を模式的に示すブロック図である。
本実施の形態において、編集支援システム300は、編集管理装置100と、一以上の編集処理装置200を含む。ここでは、編集支援システム300が2つの編集処理装置200(編集処理装置200(A)および編集処理装置200(B))を含む例を示す。FIG. 1 is a block diagram schematically showing the configuration of the editing support system in the present embodiment.
In the present embodiment, the
編集管理装置100は、音声認識結果のテキストデータを所定の形式で記憶し、テキストデータを所定の表示領域内に編集可能に表示する。ユーザが、テキストデータの所望の範囲を選択すると、編集管理装置100は、その範囲に該当するテキストデータをもとの形式を保ったままで抽出して分割データを生成する。ここで、分割データは、もとのテキストデータの一部分とすることができる。なお、このとき、編集管理装置100は、テキストデータとともに、対応する音声データを抽出して、分割データに音声データを含めることもできる。本実施の形態において、編集管理装置100がテキストデータおよび音声データを含む分割データを生成する。このようにして、編集管理装置100は、複数の分割データを生成することができる。各分割データは、それぞれ、各編集処理装置200で編集される。編集処理装置200で編集された分割データは、編集管理装置100で統合される。
The
これにより、簡易な操作で、音声認識結果の所望の範囲を選択して、当該範囲に含まれるテキストデータをもとの形式を保ったままで抽出することができる。これにより、音声認識結果の部分的な編集作業を迅速に行うことができる。また、複数の作業者がいる場合は、複数の分割データを準備して、複数の作業者がそれぞれ編集作業をすることができ、複数の作業者で音声認識結果を修正する際の作業効率を向上させることができる。 Thereby, it is possible to select a desired range of the speech recognition result and extract the text data included in the range while maintaining the original format with a simple operation. Thereby, the partial edit operation | work of a speech recognition result can be performed rapidly. In addition, when there are multiple workers, multiple pieces of divided data are prepared so that multiple workers can edit each of them, improving the work efficiency when correcting the speech recognition results by multiple workers. Can be improved.
図2は、本実施の形態における編集管理装置100の構成を示すブロック図である。
編集管理装置100は、音声取得部102、音声認識部104、表示処理部110(第1の表示処理手段)、指示受付部112(指示受付手段)、音声再生部114(音声再生手段)、分割データ生成部116(分割データ生成手段)、編集処理部118(編集処理手段)、データ統合部120(データ統合手段)、アクセス制御部122、および記憶部130を含む。FIG. 2 is a block diagram showing the configuration of the
The
記憶部130は、音声データ記憶部132(音声データ記憶手段)、音声認識結果記憶部134(音声認識結果記憶手段)、分割データ記憶部136、編集済データ記憶部138、および統合データ記憶部140を含む。
The
音声取得部102は、マイクロフォン等の音声入力部(不図示)から入力された発言者の音声データを取得する。ここで、音声取得部102は、音声データを時刻情報に対応づけて取得する。音声データ記憶部132は、音声取得部102が取得した音声データを、時刻情報に対応づけて記憶する。
The
音声認識部104は、音声取得部102が取得した音声データを音声認識し、音声認識結果をテキストデータに変換する。音声認識結果記憶部134は、音声認識部104が処理した音声認識結果のテキストデータを、単語単位で時刻情報に対応づけて所定の形式で記憶する。本実施の形態において、音声認識結果記憶部134は、音声認識結果のテキストデータを文(センテンス)毎、および単語(ワード)毎に把握するとともに、各文、各単語毎に時刻情報を対応づけた形式で記憶する。時刻情報は、開始時刻および終了時刻の両方を含んでもよく、開始時刻のみを含むものでもよい。
The
表示処理部110は、音声認識結果のテキストデータを所定の領域内に編集可能に表示するとともに、当該表示領域内に、テキストデータを選択するカーソル(キャレット)を表示する。表示処理部110の機能は、テキストエディタにより実現することができる。本実施の形態において、表示処理部110は、テキストデータを少なくとも単語単位でカーソルに対する相対位置情報に対応づけて表示することができる。
The
指示受付部112は、表示処理部110により表示されたテキストデータの任意の選択範囲をカーソルにより受け付けるとともに、分割データの生成指示を受け付ける。
The
音声再生部114は、音声データ記憶部132から音声データを読み出し、音声を再生する。ここで、音声再生部114は、時刻が指定されると、当該時刻に対応する音声データを出力する。また、音声再生部114は、表示処理部110により表示されたテキストデータにおいて、カーソルで選択された単語に対応づけられた時刻情報に基づき、対応する時刻の音声データを再生することができる。音声出力装置は、たとえばスピーカとすることができる。
The
分割データ生成部116は、指示受付部112が受け付けた選択範囲に含まれるテキストデータを音声認識結果記憶部134から所定の形式を保ったままで抽出する。ここで、形式を保ったままとは、音声認識結果のテキストデータと同様、文(センテンス)毎、および単語(ワード)毎に把握され、各文、各単語毎に時刻情報が対応づけられた形態とすることができる。また、分割データ生成部116は、選択範囲に含まれるテキストデータに対応する音声データを時刻情報に対応づけられた状態で音声データ記憶部132から抽出する。分割データ生成部116は、抽出したテキストデータと音声データとを含む分割データを生成する。
The divided
分割データ生成部116は、生成した分割データを分割データ記憶部136内の所定のフォルダに保存する。ここで、分割データ記憶部136には、分割データに対して編集処理を行うことが想定されている装置毎に準備された予め設定された所定のフォルダを準備しておくことができる。本実施の形態において、たとえば、図1に示した編集処理装置200(A)や編集処理装置200(B)等に対応するフォルダを準備しておくことができる。分割データ生成部116は、分割データを、このように準備されたフォルダに保存することができる。
The divided
本実施の形態において、音声認識結果のテキストデータに対する編集は、編集処理装置200において行うことを想定しているが、編集管理装置100においても、編集処理装置200と同様に編集作業を行うことができる。編集処理部118は、編集管理装置100においても、音声認識結果のテキストデータの編集を行うために用いるものであり、編集処理装置200に含まれるものと同様の構成とすることができる。編集処理部118の機能については、後に編集処理装置200を参照して説明する。編集済データ記憶部138には、編集済の分割データ(以下、編集済データという)が記憶される。
In the present embodiment, it is assumed that editing of the text data of the speech recognition result is performed by the
データ統合部120は、複数の分割データのテキストデータを、時刻情報に基づき、時刻順に並べて統合する。データ統合部120は、統合したデータを統合データ記憶部140に記憶する。なお、本実施の形態においては、分割データ記憶部136とは別に編集済データ記憶部138を準備した例を示しているが、他の例においては、編集済データ記憶部138を準備せず、分割データ記憶部136に記憶された編集前の分割データを編集済の分割データで上書きする構成とすることもできる。また、同様に、本実施の形態において、音声認識結果記憶部134とは別に統合データ記憶部140を準備した例を示しているが、他の例においては、統合データ記憶部140を準備せず、音声認識結果記憶部134に記憶された編集前の音声認識結果のテキストデータを編集済の統合データで上書きする構成とすることもできる。
The
アクセス制御部122は、編集処理装置200等の外部の装置からのアクセスを制御する。本実施の形態においては、分割データ生成部116が生成した分割データは、編集管理装置100の分割データ記憶部136の所定のフォルダに記憶される。編集処理装置200で各分割データに対する編集作業を行うユーザは、編集管理装置100にアクセスして、分割データを取得する。アクセス制御部122は、このような他の端末からのアクセスを制御する。
The
次に、本実施の形態において、分割データが生成される手順を説明する。図3は、本実施の形態の編集管理装置100において、分割データが生成される手順を示すフローチャートである。
Next, a procedure for generating divided data in the present embodiment will be described. FIG. 3 is a flowchart showing a procedure for generating divided data in the
まず、表示処理部110は、音声認識結果記憶部134に記憶された音声認識結果のテキストデータをディスプレイに表示する(ステップS102)。
First, the
図4は、本実施の形態における音声認識結果記憶部134に記憶された音声認識結果のテキストデータの構成の一例を示す図である。
音声認識結果記憶部134は、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。
音声認識結果欄には、音声認識結果のテキストデータが単語単位で記憶されている。ここでは、「s11」および「s12」で識別される文に含まれる単語が表示されている。各単語にも、各文中でその単語を識別する識別情報が付されている。つまり、たとえば「s11」と「w1」との識別情報に基づき、「昨年、」という単語が識別される。この単語は、話者「2」による発言であり、開始時刻が「13:44:09」、終了時刻が「13:44:10」となっている。また、文字数は3文字である。FIG. 4 is a diagram illustrating an example of the configuration of text data of a speech recognition result stored in the speech recognition
The speech recognition
In the speech recognition result column, text data of the speech recognition result is stored in units of words. Here, words included in the sentences identified by “s11” and “s12” are displayed. Each word is also attached with identification information for identifying the word in each sentence. That is, for example, based on the identification information of “s11” and “w1”, the word “Last year” is identified. This word is a statement by the speaker “2”, the start time is “13:44:09”, and the end time is “13:44:10”. The number of characters is three.
図5から図8は、表示処理部110によりディスプレイに表示されるテキストエディタの画面400を示す図である。
図5に示すように、画面400には、テキスト表示領域402、時刻表示領域404、時刻変更ボタン406、音声再生ボタン408、速度変更ボタン410等が表示されている。テキスト表示領域402には、音声認識結果のテキストデータと、カーソル420とが表示される。5 to 8 are diagrams showing a
As shown in FIG. 5, the
ここで、テキスト表示領域402に、一行に25文字、9行のテキストデータが表示される例を示す。表示処理部110は、音声認識結果記憶部134に記憶されたテキストデータを、25文字毎に改行してテキスト表示領域402に表示する。
Here, an example in which text data of 25 characters and 9 lines is displayed in one line in the
表示処理部110は、画面400に表示されたテキストデータに含まれる各単語の位置を把握するための管理テーブルを含む。図9は、表示処理部110の管理テーブルを示す図である。
表示処理部110の管理テーブルは、行毎に、当該行に含まれる文字列(text)、文(sentences)および単語(words)の識別情報を保持する。また、管理テーブルは、各文および各単語毎に、それぞれ開始位置(start)と文字長(len)を示す情報を保持する。The
The management table of the
以下、図5に示した画面400のテキスト表示領域402の2行目の文字列を例として説明する。2行目には、「○話者2 昨年、A検討委員会から報告書を受領しまし」と表示されている。図9の「L2」には、この行に表示された文字列に関する表示情報が対応づけられている。ここで、この文字列の最初の5文字「○話者2 」は、音声認識結果ではなく、話者を表示するためのラベルであるので、文字列(text)の情報として、ラベルの識別情報を示す「i11」が記入されている。また、「昨年、A検討委員会から報告書を受領しまし」は、それぞれ、「昨年、」、「A検討委員会」、「から」、「報告書」、「を」、「受領」、「しました。」に対応する。そのため、文字列(text)の情報として、各単語の識別情報を示す「s11_w1」、「s11_w2」、「s11_w3」、「s11_w4」、「s11_w5」、「s11_w6」、「s11_w7」が記入されている。
Hereinafter, the character string in the second line of the
また、各文、各単語についても、その文および単語における開始位置、および文字長が記載されている。たとえば、「s11_w7」で識別される単語は、図4を参照すると「しました。」である。このうち、最初の3文字「しまし」のみが2行目に含まれる。そのため、開始位置はゼロ、文字長は3であり、「s11_w7,start=0,len=3」と記入される。 Also, for each sentence and each word, the start position and the character length in the sentence and word are described. For example, the word identified by “s11_w7” is “I did” with reference to FIG. Of these, only the first three characters “shimashi” are included in the second line. Therefore, the start position is zero, the character length is 3, and “s11_w7, start = 0, len = 3” is entered.
以上のように、表示処理部110は、テキスト表示領域402に表示される各単語の位置(行、文字位置)を把握することができる。また、表示処理部110は、カーソル420の位置(行、文字位置)も把握する。これにより、表示処理部110は、カーソル420の位置に基づき、どの文のどの単語が指されているかを把握することができる。
As described above, the
図5に戻り、ユーザは、マウス等の操作部(不図示)を用いてカーソル420を移動させることにより、テキスト表示領域402に表示されたテキストデータの任意の選択範囲を指定することができる。表示処理部110は、カーソルの位置情報にもとづき、管理テーブルを参照して、選択範囲に含まれる単語を把握する。指示受付部112は、表示処理部110から選択範囲に含まれる単語の情報を取得する。また、ユーザがマウス等の操作部(不図示)を用いて画面400に表示された各種ボタン(404〜410)を操作すると、その指示を指示受付部112が受け付ける。
Returning to FIG. 5, the user can designate an arbitrary selection range of the text data displayed in the
たとえば、ユーザが音声再生ボタン408を操作すると、指示受付部112がその指示を受け付け、音声再生部114に通知する。音声再生部114は、ユーザの指示に基づき、音声データの再生、停止、早送り、巻き戻し等を行う。同様に、ユーザが速度変更ボタン410を操作すると、指示受付部112がその指示を受け付け、音声再生部114に通知する。音声再生部114は、ユーザの指示に基づき、音声データの再生速度を変更する。
For example, when the user operates the
時刻表示領域404には、音声データに対応する時刻が表示される。ユーザが時刻変更ボタン406を操作することにより、時刻表示領域404に表示された時刻を変更することができる。カーソル420と時刻表示領域404に表示される時刻とは連動させることができ、時刻表示領域404に表示された時刻に対応する単語に対応する箇所にカーソル420が表示されるようにすることもできる。
In the
図3に戻り、指示受付部112が、ユーザから範囲の選択および分割データの生成指示を受け付けると(ステップS104のYES)、分割データ生成部116は、分割データを生成する。まず、ユーザが範囲を選択して分割データの生成を指示する手順を、図5から図8を参照して説明する。
Returning to FIG. 3, when the
ユーザがマウス等によりカーソル420を選択範囲の開始点に合わせ(図5)、たとえばマウスの左ボタンをクリックした状態でカーソル420を選択範囲の終了点まで移動させると、開始点と終了点との間の選択範囲422のテキストデータが反転等して選択される(図6)。ここで、ユーザがたとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス430が表示される(図7)。ボックス430には、分割データ生成ボタン432等、各種作業項目が表示される。ここで、ユーザが分割データ生成ボタン432を選択すると、保存画面440が表示される(図8)。保存画面440には、予め設定された所定の複数のフォルダとファイル名を入力する欄と、保存ボタン442およびキャンセルボタン444等が表示される。ユーザがいずれかのフォルダを選択して、ファイル名を入力し、保存ボタン442を押すと、図3に示したステップS104の範囲の選択および分割データの生成指示が行われる。なお、ファイル名は、自動的に付されるようにすることもできる。また、ユーザが新たなフォルダを作成することもできる。
When the user moves the
図3に戻り、次いで、分割データ生成部116は、選択された範囲に含まれる単語を決定する(ステップS106)。また、分割データ生成部116は、決定された単語に基づいて、開始時刻および終了時刻を決定する(ステップS108)。次いで、分割データ生成部116は、音声認識結果記憶部134から、選択された範囲に対応するテキストデータを抽出する(ステップS110)。その後、分割データ生成部116は、開始時刻および終了時刻に基づき、対応する時刻の音声データを抽出する(ステップS112)。分割データ生成部116は、選択された部分のテキストデータと音声データとを含む分割データを生成して(ステップS114)、所定のフォルダに保存する(ステップS116)。
Returning to FIG. 3, the divided
図10は、分割データ記憶部136に保存された分割データのテキストデータの一例を示す図である。分割データのテキストデータは、音声認識結果記憶部134に記憶された音声認識結果のテキストデータと同じ形式で生成される。つまり、分割データのテキストデータは、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。
FIG. 10 is a diagram illustrating an example of the text data of the divided data stored in the divided
図11は、本実施の形態における編集処理装置200の構成を示す図である。
編集処理装置200は、表示処理部210(第2の表示処理手段)、指示受付部212、音声再生部214、編集処理部218(編集処理手段)、データ取得・送出部220、および記憶部230を含む。記憶部230は、分割データ記憶部236および編集済データ記憶部238を含む。FIG. 11 is a diagram showing a configuration of the
The
データ取得・送出部220は、編集管理装置100の記憶部130の分割データ記憶部136や編集済データ記憶部138にアクセスし、分割データを取得したり、編集済データを保存したりする。分割データ記憶部236は、データ取得・送出部220が分割データ記憶部136から取得した分割データを記憶する。データ取得・送出部220が取得した分割データは、図10に示したのと同様の構成を有する。
The data acquisition /
表示処理部210、指示受付部212、および音声再生部214は、それぞれ、編集管理装置100の表示処理部110、指示受付部112、および音声再生部114と同様の機能を有する構成とすることができる。
The
表示処理部210は、分割データに含まれるテキストデータを所定の領域内に編集可能に表示するとともに、当該表示領域内に、テキストデータを選択するカーソル(キャレット)を表示する。表示処理部210の機能は、表示処理部110と同様のテキストエディタにより実現することができる。
The
図12は、表示処理部210によりディスプレイに表示されるテキストエディタの画面500を示す図である。画面500には、テキスト表示領域502、時刻表示領域404、時刻変更ボタン406、音声再生ボタン408、速度変更ボタン410等が表示されている。テキスト表示領域502には、分割データのテキストデータと、カーソル520とが表示される。時刻表示領域404、時刻変更ボタン406、音声再生ボタン408、および速度変更ボタン410は、図5から図8を参照して説明したのと同様の機能を有する。ここでは説明を省略する。
FIG. 12 is a diagram showing a
図13は、図12に示した状態の表示処理部210の管理テーブルを示す図である。
表示処理部210は、行毎に、当該行に含まれる文字列(text)、文(sentences)および単語(words)の識別情報を保持する。また、各文および各単語毎に、それぞれ開始位置(start)と文字長(len)を示す情報を保持する。FIG. 13 is a diagram showing a management table of the
The
以下、図12に示した画面500のテキスト表示領域502の3行目の文字列について説明する。3行目には、「ならびにC市の学校長やB県の市町村教育委員会の綿棒」と表示されている。図13の「L3」には、この行に表示された文字列に関する表示情報が対応づけられている。ここで、この文字列の最後の2文字「綿棒」は、図10を参照すると「s12_w16」で識別される。そのため、開始位置はゼロ、文字長は2であり、「s12_w16,start=0,len=2」と記入される。
Hereinafter, the character string in the third line of the
図11に戻り、指示受付部212は、表示処理部210により表示されたテキストデータの任意の選択範囲をカーソルにより受け付けるとともに、表示処理部210に表示されたテキストデータへの編集を受け付ける。音声再生部214は、分割データ記憶部236から分割データに含まれる音声データを読み出し、音声を再生する。音声再生部214は、時刻が指定されると、当該時刻に対応する音声データを出力する。本実施の形態において、編集処理装置200のユーザは、表示処理部210により表示されたテキストデータを見ながら、対応する音声データを再生させて、音声認識結果が正しいか否かを判断する。音声認識結果に間違い等があった場合、対応する部分を修正して編集する。
Returning to FIG. 11, the
編集処理部218は、指示受付部212が表示処理部210に表示されたテキストデータへの編集を受け付けると、分割データのテキストデータの対応する単語を書き換える。また、いずれかの単語が削除されると、分割データのテキストデータのその単語に対応する部分をnull文字列に書き換える。また、ある単語に新たな文字列が入力されると、分割データのテキストデータの対応する箇所にその文字列を挿入する。
When the
次に、図14から図16を参照して、画面500のテキスト表示領域502に表示されたテキストデータを編集する手順を説明する。
ユーザがマウス等によりカーソル520で3行目の「綿棒」を選択して(図14)、「メンバー」と入力すると、「綿棒」が「メンバー」に変更される。また、同様に、ユーザがマウス等によりカーソル520で5行目の「綿棒」を選択して(図15)、「メンバー」と入力すると、「綿棒」が「メンバー」に変更される(図16)。テキスト表示領域502に表示されたテキストデータが編集されると、表示処理部210の管理テーブルも変化する。Next, a procedure for editing text data displayed in the
When the user selects “swab” on the third line with the
図17は、図16に示した状態の表示処理部210の管理テーブルを示す図である。
ここでは、3行目(L3)の表示情報は、図13に示したのと同様であるが、3行目の「綿棒」を「メンバー」に変更したことにより、4行目以降に表示される単語が変更されている。たとえば、4行目(L4)の最初の単語は、図13に示した例では「を」を示す「s12_w17,start=0,len=1」であるが、図17では、「メンバー」の「バー」を示す「s12_w16,start=2,len=2」となる。FIG. 17 is a diagram showing a management table of the
Here, the display information of the third line (L3) is the same as that shown in FIG. 13, but is displayed after the fourth line by changing the “cotton swab” of the third line to “member”. The word has been changed. For example, the first word on the fourth line (L4) is “s12_w17, start = 0, len = 1” indicating “O” in the example shown in FIG. 13, but in FIG. “S12_w16, start = 2, len = 2” indicating “bar”.
また、図16に示した画面500において、ユーザがたとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス530が表示される。ボックス530には、保存ボタン532が表示される。ここで、ユーザが保存ボタン532を選択すると、編集されたデータが編集済データとして編集済データ記憶部238に保存される。ここで、ファイル名は、自動的に付されるようにすることもでき、またユーザが入力できるようにすることもできる。
When the user performs an operation such as clicking the right button of the mouse on the
図18は、編集済データ記憶部238に保存された編集済データのテキストデータの一例を示す図である。編集済データは、分割データのテキストデータと同じ形式で生成される。つまり、編集済データのテキストデータは、文番号欄、単語番号欄、話者欄、開始時刻欄、終了時刻欄、音声認識結果欄、および文字数欄を含む。
FIG. 18 is a diagram illustrating an example of text data of edited data stored in the edited
ここで、「綿棒」を「メンバー」と変更すると、文字数は2から4に増加する。しかし、この単語に対応づけられた時刻情報は変化しない。そのため、図16に示した画面500において、メンバーに該当する位置にカーソル520をおくと、もともと「綿棒」に対応づけられていたのと同様の音声データが再生される。ある単語を除去してしまうと、その単語は画面500のテキスト表示領域502には表示されなくなる。そのため、削除した単語に対応する時刻情報の音声データは、テキスト表示領域502上でカーソル520を移動させることによっては再生できなくなる。しかし、音声データは、消去されるのではないため、その単語の前後の単語から連続音声再生等を行うことにより再生することができる。
Here, when the “cotton swab” is changed to “member”, the number of characters increases from 2 to 4. However, the time information associated with this word does not change. Therefore, on the
編集作業が終了すると、ユーザの指示により、データ取得・送出部220は、編集済データを編集管理装置100の編集済データ記憶部138に保存する。
When the editing operation is completed, the data acquisition /
また、本実施の形態において、編集管理装置100は、テキストデータに含まれる所定の文字列に対して、つなぎ文字登録をする機能を有する構成とすることができる。ここで、つなぎ文字とは、複数の分割データに重複して含まれるべき共通文字列とすることができる。このようなつなぎ文字を登録しておくことにより、つなぎ文字をキーとして分割データを統合することができ、簡易かつ精度よく統合データを生成することができる。
Further, in the present embodiment, the
図19および図20を参照して、画面400のテキスト表示領域402に表示されたテキストデータにつなぎ文字登録をする手順を説明する。
ユーザがマウス等によりカーソル420で2行目の「昨年」を選択して(422は選択範囲)、たとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス430が表示される。この手順は、図7を参照して説明したのと同様である。ここで、ボックス430には、分割データ生成ボタン432に加えてさらにつなぎ文字登録ボタン434が表示される。ここで、ユーザがつなぎ文字登録ボタン434を選択すると、この文字列がつなぎ文字として登録される。With reference to FIG. 19 and FIG. 20, a procedure for registering characters connected to text data displayed in the
When the user selects “Last year” on the second line with the
図20に示すように、表示処理部110は、つなぎ文字を枠424で囲む等して強調表示把握可能に表示することができる。編集管理装置100のユーザが分割データを生成する処理を行う前につなぎ文字を登録しておくことにより、ユーザが画面400を見て、つなぎ文字を境界として分割データの範囲を選択するようにすることができる。なお、つなぎ文字が登録されている場合、つなぎ文字が複数の分割データに共通に含まれるようにすることができる。図21にこの例を示す。ここでは、「昨年」がつなぎ文字として登録されている。この場合、それぞれこのつなぎ文字を含む第1の分割データ450および第2の分割データ452を生成することができる。これにより、第1の分割データ450および第2の分割データ452それぞれへの編集処理が終了した後に、「昨年」というつなぎ文字をキーとして統合データを生成することができる。
As illustrated in FIG. 20, the
また、本実施の形態において、編集管理装置100は、テキストデータの所定の位置に、任意の再生開始位置をマーキングするためのインデックスを付与する機能を有する構成とすることができる。ユーザが表示されたテキストデータの所定の位置にインデックスを付与することにより、その位置から再生可能とすることができる。
In the present embodiment, the
図22を参照して、画面400のテキスト表示領域402に表示されたテキストデータにインデックスを付与する手順を説明する。
ユーザがマウス等により2行目の「昨年」の前にカーソル420を移動して、たとえばマウスの右ボタンをクリックする等の操作を行うと、ボックス430が表示される。この手順は、図19を参照して説明したのと同様である。ここで、ボックス430には、分割データ生成ボタン432およびつなぎ文字登録ボタン434に加えてさらにインデックス付与ボタン436が表示される。ここで、ユーザがインデックス付与ボタン436を選択すると、この位置にインデックスが付与される。
ユーザがつなぎ文字やインデックスを登録した場合、図23に示すように、音声認識結果記憶部134の対応する単語にフラグが付される。With reference to FIG. 22, a procedure for assigning an index to the text data displayed in the
When the user moves the
When the user registers a connecting character or index, a flag is attached to the corresponding word in the speech recognition
以上のように、本実施の形態における編集支援システム300によれば、簡易な操作で、音声認識結果の所望の範囲を選択して、当該範囲に含まれるテキストデータをもとの形式を保ったままで抽出することができる。これにより、音声認識結果の部分的な編集作業を迅速に行うことができる。また、複数の作業者がいる場合は、複数の分割データを準備して、複数の作業者がそれぞれ編集作業をすることができ、複数の作業者で音声認識結果を修正する際の作業効率を向上させることができる。
As described above, according to the
なお、図2に示した編集管理装置100および図11に示した編集処理装置200の各構成要素は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。編集管理装置100および編集処理装置200の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インターフェイスを中心にハードウェアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
Note that each component of the
たとえば、図2を参照して説明した音声取得部102が取得した音声データと、音声認識部104が処理した音声認識結果のテキストデータとは、一つのファイルに含めた構成とすることができる。つまり、図4に示した音声認識結果のテキストデータが、音声データに対応づけられ、一つのファイルとして構成することができる。また、図2に示した、音声データ記憶部132および音声認識結果記憶部134は、機能的に分離して示したものであり、これらは物理的には明確に分離されていなくてもよい。
For example, the voice data acquired by the
また、編集管理装置100および編集処理装置200は、それぞれ、たとえばパーソナルコンピュータ等の装置10により構成される。図24は、編集管理装置100や編集処理装置200を構成する装置10のハードウェア構成を示すブロック図である。
装置10は、CPU12、メモリ14、HDD(ハードディスク)16、通信IF(インターフェイス)18、ディスプレイ30、操作部32、音声出力装置34、およびこれらを接続するバス40を含む。The
The
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
以上の実施の形態では、編集処理装置200が編集管理装置100にアクセスして分割データを取得する構成を示したが、編集管理装置100は、分割データを生成すると、適宜編集処理装置200に分割データを配信して編集依頼をするようにすることもできる。
In the above embodiment, the
また、以上の実施の形態においては、分割データが、テキストデータに対応する部分の音声データを含む構成を示した。これにより、各編集処理装置200で取得する分割データのデータ量を減らすことができる。しかし、分割データに含まれる音声データは、音声認識結果のテキストデータ全体に対応するものとすることもできる。この場合でも、編集処理装置200のユーザは、時刻情報に基づき、対応する部分の音声データを再生させるようにすることができる。さらに、分割データは、音声データを含まない構成とすることもできる。この場合、編集処理装置200のユーザは、編集管理装置100の音声データ記憶部132にアクセスして、時刻情報に基づき、対応する部分の音声データを再生させるようにすることができる。
Moreover, in the above embodiment, the structure which the division | segmentation data included the audio | voice data of the part corresponding to text data was shown. Thereby, the data amount of the divided data acquired by each
この出願は、2009年6月18日に出願された日本出願特願2009−145529号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以下、参考形態の例を付記する。
1. 音声データを時刻情報に対応づけて記憶する音声データ記憶手段と、
前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段と、
前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段と、
前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段と、
前記指示受付手段により受け付けられた前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段と、
を含む音声認識結果の編集支援システム。
2. 1に記載の編集支援システムにおいて、
前記分割データ生成手段は、前記テキストデータを抽出するとともに、前記音声データ記憶手段から、当該テキストデータに対応する音声データを抽出し、
前記分割データは、抽出された前記テキストデータと前記音声データとを含む編集支援システム。
3. 1または2に記載の編集支援システムにおいて、
前記第1の表示処理手段は、前記テキストデータを少なくとも単語単位で前記カーソルに対する相対位置情報に対応づけて表示する編集支援システム。
4. 1から3いずれかに記載の編集支援システムにおいて、
前記分割データ生成手段は、前記分割データを、前記分割データに対して編集処理を行う装置毎に準備された予め設定された所定のフォルダに保存する編集支援システム。
5. 1から4いずれかに記載の編集支援システムにおいて、
前記第1の表示処理手段により表示された前記テキストデータにおいて、前記カーソルで選択された単語に対応づけられた前記時刻情報に基づき、対応する音声データを再生する音声再生手段をさらに含む編集支援システム。
6. 1から5いずれかに記載の編集支援システムにおいて、
前記分割データ生成手段は、複数の前記分割データを生成し、
前記複数の分割データの前記テキストデータを、前記時刻情報に基づき、時刻順に並べて統合するデータ統合手段をさらに含む編集支援システム。
7. 1から6いずれかに記載の編集支援システムにおいて、
前記分割データ生成手段は、複数の前記分割データを生成し、
前記第1の表示処理手段は、複数の分割データに重複して含まれるべき共通文字列であるつなぎ文字を把握可能に表示する編集支援システム。
8.1から7いずれかに記載の編集支援システムにおいて、
前記分割データを取得するデータ取得手段と、
前記データ取得手段が取得した前記分割データに含まれる前記テキストデータを、所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第2の表示処理手段と、
前記第2の表示処理手段により表示された前記テキストデータへの編集を受け付け、編集済データを生成する編集処理手段と、
をさらに含む編集支援システム。
9. 音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段から前記テキストデータを読み出し、前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示ステップと、
前記第1の表示ステップにおいて表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付けるステップと、
前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成するステップと、
を含む音声認識結果の編集支援方法。
10. コンピュータを、
音声データを時刻情報に対応づけて記憶する音声データ記憶手段、
前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段、
前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段、
前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段、
前記指示受付手段により受け付けられた前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段、
として機能させる音声認識結果の編集支援プログラム。
This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2009-145529 for which it applied on June 18, 2009, and takes in those the indications of all here.
Hereinafter, examples of the reference form will be added.
1. Voice data storage means for storing voice data in association with time information;
Speech recognition result storage means for storing text data of a speech recognition result of the speech data in a predetermined format in association with time information in units of words;
First display processing means for displaying the text data in a predetermined display area and displaying a cursor for selecting the text data in the display area;
Instruction accepting means for accepting an arbitrary selection range of the text data displayed by the first display processing means by the cursor and accepting an instruction for generating divided data;
Division data generation means for extracting the text data included in the selection range received by the instruction reception means while maintaining the predetermined format from the speech recognition result storage means, and generating divided data;
Editing support system for speech recognition results including
2. In the editing support system according to 1,
The divided data generation means extracts the text data and extracts voice data corresponding to the text data from the voice data storage means,
The editing support system, wherein the divided data includes the extracted text data and the voice data.
3. In the editing support system according to 1 or 2,
The first display processing means is an editing support system that displays the text data in association with relative position information with respect to the cursor at least in units of words.
4). In the editing support system according to any one of 1 to 3,
The divided data generation means is an editing support system that stores the divided data in a predetermined folder prepared for each device that performs an editing process on the divided data.
5. In the editing support system according to any one of 1 to 4,
In the text data displayed by the first display processing means, the editing support system further includes an audio reproducing means for reproducing the corresponding audio data based on the time information associated with the word selected by the cursor. .
6). In the editing support system according to any one of 1 to 5,
The divided data generation means generates a plurality of the divided data,
An editing support system further comprising a data integration unit that arranges and integrates the text data of the plurality of divided data in order of time based on the time information.
7). In the editing support system according to any one of 1 to 6,
The divided data generation means generates a plurality of the divided data,
The first display processing means is an editing support system that displays a connected character that is a common character string that should be included in a plurality of divided data so as to be recognized.
In the editing support system according to any one of 8.1 to 7,
Data acquisition means for acquiring the divided data;
Second display processing means for displaying the text data included in the divided data acquired by the data acquisition means in a predetermined display area and displaying a cursor for selecting the text data in the display area. When,
Edit processing means for receiving edits to the text data displayed by the second display processing means and generating edited data;
An editing support system further comprising:
9. The text data is read from the voice recognition result storage means for storing the text data of the voice recognition result of the voice data in a predetermined format in association with time information in units of words, and the text data is displayed in a predetermined display area. A first display step of displaying a cursor for selecting the text data in the display area;
Receiving an arbitrary selection range of the text data displayed in the first display step with the cursor and receiving an instruction to generate divided data;
Extracting the text data included in the selection range from the voice recognition result storage means while maintaining the predetermined format, and generating divided data;
Editing support method for speech recognition results including
10. Computer
Audio data storage means for storing audio data in association with time information;
Voice recognition result storage means for storing text data of a voice recognition result of the voice data in a predetermined format in association with time information in units of words;
First display processing means for displaying the text data in a predetermined display area and displaying a cursor for selecting the text data in the display area;
Instruction accepting means for accepting an arbitrary selection range of the text data displayed by the first display processing means by the cursor and accepting an instruction for generating divided data;
A divided data generating unit that extracts the text data included in the selection range received by the instruction receiving unit while maintaining the predetermined format from the voice recognition result storage unit, and generates divided data;
Editing support program for voice recognition results to function as.
Claims (11)
前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段と、
前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段と、
前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段と、
前記指示受付手段により受け付けられた前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段と、
を含む音声認識結果の編集支援システム。 Voice data storage means for storing voice data in association with time information;
Speech recognition result storage means for storing text data of a speech recognition result of the speech data in a predetermined format in association with time information in units of words;
First display processing means for displaying the text data in a predetermined display area and displaying a cursor for selecting the text data in the display area;
Instruction accepting means for accepting an arbitrary selection range of the text data displayed by the first display processing means by the cursor and accepting an instruction for generating divided data;
Division data generation means for extracting the text data included in the selection range received by the instruction reception means while maintaining the predetermined format from the speech recognition result storage means, and generating divided data;
Editing support system for speech recognition results including
前記分割データ生成手段は、前記テキストデータを抽出するとともに、前記音声データ記憶手段から、当該テキストデータに対応する音声データを抽出し、
前記分割データは、抽出された前記テキストデータと前記音声データとを含む編集支援システム。 The editing support system according to claim 1,
The divided data generation means extracts the text data and extracts voice data corresponding to the text data from the voice data storage means,
The editing support system, wherein the divided data includes the extracted text data and the voice data.
前記第1の表示処理手段は、前記テキストデータを少なくとも単語単位で前記カーソルに対する相対位置情報に対応づけて表示する編集支援システム。 The editing support system according to claim 1 or 2,
The first display processing means is an editing support system that displays the text data in association with relative position information with respect to the cursor at least in units of words.
前記分割データ生成手段は、前記分割データを、前記分割データに対して編集処理を行う装置毎に準備された予め設定された所定のフォルダに保存する編集支援システム。 The editing support system according to any one of claims 1 to 3,
The divided data generation means is an editing support system that stores the divided data in a predetermined folder prepared for each device that performs an editing process on the divided data.
前記第1の表示処理手段により表示された前記テキストデータにおいて、前記カーソルで選択された単語に対応づけられた前記時刻情報に基づき、対応する音声データを再生する音声再生手段をさらに含む編集支援システム。 The editing support system according to any one of claims 1 to 4,
In the text data displayed by the first display processing means, the editing support system further includes an audio reproducing means for reproducing the corresponding audio data based on the time information associated with the word selected by the cursor. .
前記分割データ生成手段は、複数の前記分割データを生成し、
前記複数の分割データの前記テキストデータを、前記時刻情報に基づき、時刻順に並べて統合するデータ統合手段をさらに含む編集支援システム。 The editing support system according to any one of claims 1 to 5,
The divided data generation means generates a plurality of the divided data,
An editing support system further comprising a data integration unit that arranges and integrates the text data of the plurality of divided data in order of time based on the time information.
前記テキストデータの中の任意の文字列を共通文字列として登録する入力を受付ける手段と、 Means for accepting an input for registering an arbitrary character string in the text data as a common character string;
複数の前記分割データを統合するデータ統合手段と、 Data integration means for integrating a plurality of the divided data;
をさらに有し、Further comprising
前記データ統合手段は、複数の前記分割データの中に前記共通文字列が重複して含まれる場合、前記共通文字列を利用して、複数の前記分割データの位置合わせを行う編集支援システム。 The data integration unit is an editing support system that aligns a plurality of pieces of the divided data by using the common character string when the common character string is included in a plurality of pieces of the divided data.
前記第1の表示処理手段は、登録された前記共通文字列を識別可能に、前記テキストデータを表示し、 The first display processing means displays the text data so that the registered common character string can be identified,
前記指示受付手段は、前記第1の表示処理手段により前記共通文字列が識別可能に表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付ける編集支援システム。 The instruction support unit is an editing support system that receives, with the cursor, an arbitrary selection range of the text data in which the common character string is displayed in an identifiable manner by the first display processing unit.
前記分割データを取得するデータ取得手段と、
前記データ取得手段が取得した前記分割データに含まれる前記テキストデータを、所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第2の表示処理手段と、
前記第2の表示処理手段により表示された前記テキストデータへの編集を受け付け、編集済データを生成する編集処理手段と、
をさらに含む編集支援システム。 The editing support system according to any one of claims 1 to 8 ,
Data acquisition means for acquiring the divided data;
Second display processing means for displaying the text data included in the divided data acquired by the data acquisition means in a predetermined display area and displaying a cursor for selecting the text data in the display area. When,
Edit processing means for receiving edits to the text data displayed by the second display processing means and generating edited data;
An editing support system further comprising:
前記第1の表示ステップにおいて表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付けるステップと、
前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成するステップと、
を含む音声認識結果の編集支援方法。 The text data is read from the voice recognition result storage means for storing the text data of the voice recognition result of the voice data in a predetermined format in association with time information in units of words, and the text data is displayed in a predetermined display area. A first display step of displaying a cursor for selecting the text data in the display area;
Receiving an arbitrary selection range of the text data displayed in the first display step with the cursor and receiving an instruction to generate divided data;
Extracting the text data included in the selection range from the voice recognition result storage means while maintaining the predetermined format, and generating divided data;
Editing support method for speech recognition results including
音声データを時刻情報に対応づけて記憶する音声データ記憶手段、
前記音声データの音声認識結果のテキストデータを単語単位で時刻情報に対応づけて所定の形式で記憶する音声認識結果記憶手段、
前記テキストデータを所定の表示領域内に表示するとともに、前記表示領域内に、前記テキストデータを選択するカーソルを表示する第1の表示処理手段、
前記第1の表示処理手段により表示された前記テキストデータの任意の選択範囲を前記カーソルにより受け付けるとともに、分割データの生成指示を受け付ける指示受付手段、
前記指示受付手段により受け付けられた前記選択範囲に含まれる前記テキストデータを前記音声認識結果記憶手段から前記所定の形式を保ったままで抽出し、分割データを生成する分割データ生成手段、
として機能させる音声認識結果の編集支援プログラム。 Computer
Audio data storage means for storing audio data in association with time information;
Voice recognition result storage means for storing text data of a voice recognition result of the voice data in a predetermined format in association with time information in units of words;
First display processing means for displaying the text data in a predetermined display area and displaying a cursor for selecting the text data in the display area;
Instruction accepting means for accepting an arbitrary selection range of the text data displayed by the first display processing means by the cursor and accepting an instruction for generating divided data;
A divided data generating unit that extracts the text data included in the selection range received by the instruction receiving unit while maintaining the predetermined format from the voice recognition result storage unit, and generates divided data;
Editing support program for voice recognition results to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011519574A JP5533865B2 (en) | 2009-06-18 | 2010-06-17 | Editing support system, editing support method, and editing support program |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009145529 | 2009-06-18 | ||
JP2009145529 | 2009-06-18 | ||
JP2011519574A JP5533865B2 (en) | 2009-06-18 | 2010-06-17 | Editing support system, editing support method, and editing support program |
PCT/JP2010/004060 WO2010146869A1 (en) | 2009-06-18 | 2010-06-17 | Editing support system, editing support method and editing support program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010146869A1 JPWO2010146869A1 (en) | 2012-11-29 |
JP5533865B2 true JP5533865B2 (en) | 2014-06-25 |
Family
ID=43356199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011519574A Active JP5533865B2 (en) | 2009-06-18 | 2010-06-17 | Editing support system, editing support method, and editing support program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5533865B2 (en) |
WO (1) | WO2010146869A1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017026821A (en) * | 2015-07-22 | 2017-02-02 | ブラザー工業株式会社 | Text cross-reference editing device, text cross-reference editing method, and program |
JP6402688B2 (en) * | 2015-07-22 | 2018-10-10 | ブラザー工業株式会社 | Text association editing apparatus, text association editing method, and program |
JP6780849B2 (en) * | 2016-10-03 | 2020-11-04 | 株式会社アドバンスト・メディア | Information processing system, terminal device, server, information processing method and program |
JP6949075B2 (en) * | 2018-05-08 | 2021-10-13 | 日本放送協会 | Speech recognition error correction support device and its program |
JP7048113B2 (en) * | 2020-09-16 | 2022-04-05 | 株式会社時空テクノロジーズ | Information processing equipment, information processing systems, and programs |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001272990A (en) * | 2000-03-28 | 2001-10-05 | Fuji Xerox Co Ltd | Interaction recording and editing device |
JP2003131694A (en) * | 2001-08-04 | 2003-05-09 | Koninkl Philips Electronics Nv | Method for supporting proofreading of voice-recognized text with reproduction speed adapted to reliability of recognition |
JP2004077966A (en) * | 2002-08-21 | 2004-03-11 | Yamatosokki Joho Center Co Ltd | Digital stenographic system |
JP2004333737A (en) * | 2003-05-06 | 2004-11-25 | Nec Corp | Device and program for media retrieval |
JP2007133033A (en) * | 2005-11-08 | 2007-05-31 | Nec Corp | System, method and program for converting speech into text |
JP2008009693A (en) * | 2006-06-29 | 2008-01-17 | Advanced Media Inc | Transcribing system, its server, and program for server |
JP2009009410A (en) * | 2007-06-28 | 2009-01-15 | Hiroshi Ueno | Text editing support system and program |
JP2009098490A (en) * | 2007-10-18 | 2009-05-07 | Kddi Corp | Device for editing speech recognition result, speech recognition device and computer program |
-
2010
- 2010-06-17 JP JP2011519574A patent/JP5533865B2/en active Active
- 2010-06-17 WO PCT/JP2010/004060 patent/WO2010146869A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001272990A (en) * | 2000-03-28 | 2001-10-05 | Fuji Xerox Co Ltd | Interaction recording and editing device |
JP2003131694A (en) * | 2001-08-04 | 2003-05-09 | Koninkl Philips Electronics Nv | Method for supporting proofreading of voice-recognized text with reproduction speed adapted to reliability of recognition |
JP2004077966A (en) * | 2002-08-21 | 2004-03-11 | Yamatosokki Joho Center Co Ltd | Digital stenographic system |
JP2004333737A (en) * | 2003-05-06 | 2004-11-25 | Nec Corp | Device and program for media retrieval |
JP2007133033A (en) * | 2005-11-08 | 2007-05-31 | Nec Corp | System, method and program for converting speech into text |
JP2008009693A (en) * | 2006-06-29 | 2008-01-17 | Advanced Media Inc | Transcribing system, its server, and program for server |
JP2009009410A (en) * | 2007-06-28 | 2009-01-15 | Hiroshi Ueno | Text editing support system and program |
JP2009098490A (en) * | 2007-10-18 | 2009-05-07 | Kddi Corp | Device for editing speech recognition result, speech recognition device and computer program |
Also Published As
Publication number | Publication date |
---|---|
JPWO2010146869A1 (en) | 2012-11-29 |
WO2010146869A1 (en) | 2010-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9870796B2 (en) | Editing video using a corresponding synchronized written transcript by selection from a text viewer | |
JP5533865B2 (en) | Editing support system, editing support method, and editing support program | |
JP2006512007A (en) | System and method for annotating multimodal characteristics in multimedia documents | |
US20130007043A1 (en) | Voice description of time-based media for indexing and searching | |
JP5206553B2 (en) | Browsing system, method, and program | |
JP2010060850A (en) | Minute preparation support device, minute preparation support method, program for supporting minute preparation and minute preparation support system | |
CN106126157A (en) | Pronunciation inputting method based on hospital information system and device | |
KR102036721B1 (en) | Terminal device for supporting quick search for recorded voice and operating method thereof | |
JP6865701B2 (en) | Speech recognition error correction support device and its program | |
EP1079313A2 (en) | An audio processing system | |
JPS61170864A (en) | Sentence processor | |
JP2005326811A (en) | Voice synthesizer and voice synthesis method | |
JP7180747B2 (en) | Editing support program, editing support method, and editing support device | |
JP2005025571A (en) | Business support device, business support method, and its program | |
JP4260641B2 (en) | Search result processing apparatus, search result processing program, search result processing program recording medium, and search result processing system | |
JP4452122B2 (en) | Metadata generation apparatus and metadata generation program | |
CN109933576B (en) | Sound effect SDK library establishing method and device, electronic equipment and computer readable medium | |
JP2011150169A (en) | Speech recognition device | |
WO2022054286A1 (en) | Data structure of language resource; and device, method, and program for utterance understanding assistance in which same is used | |
JPH07334523A (en) | Information processor | |
KR100285502B1 (en) | Method for building phonetic database | |
JP6628157B2 (en) | Translation apparatus, control method thereof, and program | |
JP2018005306A (en) | Information processing apparatus and information processing program | |
JP6692778B2 (en) | File system, file system control program, and file system control method | |
JPH08152897A (en) | Voice editorial processing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5533865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140414 |