JP2012181307A - Voice processing device, voice processing method and voice processing program - Google Patents

Voice processing device, voice processing method and voice processing program Download PDF

Info

Publication number
JP2012181307A
JP2012181307A JP2011043572A JP2011043572A JP2012181307A JP 2012181307 A JP2012181307 A JP 2012181307A JP 2011043572 A JP2011043572 A JP 2011043572A JP 2011043572 A JP2011043572 A JP 2011043572A JP 2012181307 A JP2012181307 A JP 2012181307A
Authority
JP
Japan
Prior art keywords
voice
data
audio
recognition
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011043572A
Other languages
Japanese (ja)
Inventor
Manabu Kamiyama
学 上山
Hiroto Teranishi
博人 寺西
Akira Chiyo
章 千代
Hiroki Yoshimoto
大樹 吉本
Takahiro Otsuka
隆宏 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Software Hokkaido Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Software Hokkaido Ltd filed Critical NEC Software Hokkaido Ltd
Priority to JP2011043572A priority Critical patent/JP2012181307A/en
Publication of JP2012181307A publication Critical patent/JP2012181307A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To increase efficiency in recognition processing of voice data.SOLUTION: A voice processing device includes storage means for storing input voice data, voice division means for dividing voice data stored in the storage means, voice recognition means for recognizing a plurality of partial voice data items generated by division by the voice division means using at least two voice recognition engines and converting them to character data, and integration means for integrating character data as recognition results by the voice recognition means to generate document data.

Description

本発明は、音声を認識する技術に関する。   The present invention relates to a technology for recognizing speech.

上記技術分野において、特許文献1に示されているように、入力した音声データを分割して認識する技術が知られている。   In the above technical field, as disclosed in Patent Document 1, a technique for dividing and recognizing input voice data is known.

特開2000-089786号公報JP 2000-089786 A

しかしながら、上記従来技術では、音声認識処理手段でシーケンシャルに分割された音声データを認識しており、処理効率が悪かった。   However, in the above prior art, the voice data is sequentially divided by the voice recognition processing means, and the processing efficiency is poor.

本発明の目的は、上述の課題を解決する技術を提供することにある。   The objective of this invention is providing the technique which solves the above-mentioned subject.

上記目的を達成するため、本発明に係る装置は、
入力した音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データを分割する音声分割手段と、
前記音声分割手段による分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識手段と、
前記音声認識手段による認識結果としての文字データを統合して文書データを生成する統合手段と、
を備えたことを特徴とする。
In order to achieve the above object, an apparatus according to the present invention provides:
Storage means for storing the input voice data;
Audio dividing means for dividing the audio data stored in the storage means;
Voice recognition means for recognizing a plurality of partial voice data generated by the division by the voice division means using at least two voice recognition engines and converting them into character data;
Integration means for integrating character data as a recognition result by the voice recognition means to generate document data;
It is provided with.

上記目的を達成するため、本発明に係る方法は、
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
を含むことを特徴とする。
In order to achieve the above object, the method according to the present invention comprises:
An audio dividing step for dividing the audio data stored in the storage means;
A voice recognition step of recognizing a plurality of partial voice data generated by the division in the voice division step using at least two voice recognition engines and converting the data into character data;
An integration step of generating document data by integrating character data as a recognition result in the voice recognition step;
It is characterized by including.

上記目的を達成するため、本発明に係るプログラムは、
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
をコンピュータに実行させることを特徴とする。
In order to achieve the above object, a program according to the present invention provides:
An audio dividing step for dividing the audio data stored in the storage means;
A voice recognition step of recognizing a plurality of partial voice data generated by the division in the voice division step using at least two voice recognition engines and converting the data into character data;
An integration step of generating document data by integrating character data as a recognition result in the voice recognition step;
Is executed by a computer.

本発明によれば、音声データの認識処理を効率化することができる。   ADVANTAGE OF THE INVENTION According to this invention, the recognition process of audio | voice data can be made efficient.

本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio processing apparatus which concerns on 1st Embodiment of this invention. 本発明の第2実施形態に係る音声処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio processing apparatus which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る音声認識部の構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition part which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る音声処理装置に記憶される音声データの構成を示す図である。It is a figure which shows the structure of the audio | voice data memorize | stored in the audio | voice processing apparatus which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る音声処理装置における音声データの分割結果を示す図である。It is a figure which shows the division | segmentation result of the audio | voice data in the audio | voice processing apparatus which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る音声処理装置における音声データの分割方法を説明するための図である。It is a figure for demonstrating the division | segmentation method of the audio | voice data in the audio | voice processing apparatus which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る音声処理装置における音声データの分割方法を説明するための図である。It is a figure for demonstrating the division | segmentation method of the audio | voice data in the audio | voice processing apparatus which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る音声処理装置が表示するグラフィカルユーザインタフェースを示す図である。It is a figure which shows the graphical user interface which the audio processing apparatus which concerns on 2nd Embodiment of this invention displays. 本発明の第3実施形態に係る音声認識部の構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition part which concerns on 3rd Embodiment of this invention.

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。   Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the drawings. However, the components described in the following embodiments are merely examples, and are not intended to limit the technical scope of the present invention only to them.

(第1実施形態)
本発明の第1実施形態としての音声処理装置100について、図1を用いて説明する。音声処理装置100は、音声データを認識して文書データに変換する装置である。
(First embodiment)
A speech processing apparatus 100 as a first embodiment of the present invention will be described with reference to FIG. The voice processing device 100 is a device that recognizes voice data and converts it into document data.

図1に示すように、音声処理装置100は、記憶部101と音声分割部102と音声認識部103と認識結果統合部105とを含む。記憶部101は、入力した音声データを記憶する。音声分割部102は、記憶部101から音声データを読出し、複数の部分音声データに分割する。また、音声認識部103は、音声分割部102による分割によって生成された複数の部分音声データを、少なくとも2つの音声認識エンジン131〜13nを用いて認識し、文字データに変換する。更に、認識結果統合部105は、音声認識部103から出力された文字データを統合して、文書データを生成する。   As shown in FIG. 1, the speech processing apparatus 100 includes a storage unit 101, a speech division unit 102, a speech recognition unit 103, and a recognition result integration unit 105. The storage unit 101 stores input voice data. The audio dividing unit 102 reads audio data from the storage unit 101 and divides it into a plurality of partial audio data. Further, the voice recognition unit 103 recognizes the plurality of partial voice data generated by the division by the voice division unit 102 using at least two voice recognition engines 131 to 13n, and converts them into character data. Further, the recognition result integration unit 105 integrates the character data output from the voice recognition unit 103 to generate document data.

以上の構成によれば、複数の音声認識エンジンで並列に音声データを処理するので非常に効率的に音声認識を行なうことができる。   According to the above configuration, since speech data is processed in parallel by a plurality of speech recognition engines, speech recognition can be performed very efficiently.

(第2実施形態)
本発明の第2実施形態について、図2以降を用いて説明する。図2は、本実施形態に係る音声処理システム200の構成を示すブロック図である。図2において、音声処理システム200は、マイク210、スピーカ220、ディスプレイ230、操作部(マウスやキーボード)240などと接続されている。また、音声処理システム200は、音声記憶部201と音声認識部202と文書処理部203と音声再生部207と操作部240とを備えている。音声処理システム200は、マイク210から入力した音声を認識して、ディスプレイ230やスピーカ220に入力音声や認識結果を出力しつつ、認識結果としての文書中の誤りを修正したり編集したりするシステムである。音声処理システム200の構成要素のうち、音声記憶部201は、マイク210から入力した音声データを記憶する。また、音声認識部202は、音声記憶部201に記憶された音声データを認識して文書データに変換する。更に文書処理部203は、音声認識部202が生成した文書データを用意されたGUIフォームに挿入して、表示データを生成する。生成された表示データは、ディスプレイ230によって表示される。
(Second Embodiment)
A second embodiment of the present invention will be described with reference to FIG. FIG. 2 is a block diagram showing a configuration of the voice processing system 200 according to the present embodiment. In FIG. 2, the audio processing system 200 is connected to a microphone 210, a speaker 220, a display 230, an operation unit (mouse or keyboard) 240, and the like. The voice processing system 200 includes a voice storage unit 201, a voice recognition unit 202, a document processing unit 203, a voice playback unit 207, and an operation unit 240. The voice processing system 200 recognizes the voice input from the microphone 210 and outputs the input voice and the recognition result to the display 230 and the speaker 220, and corrects or edits an error in the document as the recognition result. It is. Of the components of the voice processing system 200, the voice storage unit 201 stores voice data input from the microphone 210. The voice recognition unit 202 recognizes the voice data stored in the voice storage unit 201 and converts it into document data. Further, the document processing unit 203 inserts the document data generated by the voice recognition unit 202 into the prepared GUI form, and generates display data. The generated display data is displayed on the display 230.

操作部240からは、ユーザの操作を受け付け、文書処理部203が生成した文書データをディスプレイ230に表示しつつ、文書データの編集、修正を行なう。   A user operation is accepted from the operation unit 240, and the document data generated by the document processing unit 203 is displayed on the display 230, and the document data is edited and corrected.

図3は、音声認識部202の詳細構成を示す図である。音声認識部202は、音声入力部310と音声分割部320と複数の認識エンジン331〜33nと認識結果結合部340と文書出力部350とを備えている。   FIG. 3 is a diagram illustrating a detailed configuration of the voice recognition unit 202. The voice recognition unit 202 includes a voice input unit 310, a voice division unit 320, a plurality of recognition engines 331 to 33n, a recognition result combining unit 340, and a document output unit 350.

音声入力部310は、音声データ(音声ファイル)を音声記憶部201から読み出し、音声分割部320に渡す。音声分割部320は、受け取った音声データを部分音声データに分割する。部分音声データは、複数の認識エンジン331〜33nに送られ、それぞれ音声認識処理が加えられて文字データに変換される。   The audio input unit 310 reads out audio data (audio file) from the audio storage unit 201 and passes it to the audio dividing unit 320. The audio dividing unit 320 divides the received audio data into partial audio data. The partial voice data is sent to a plurality of recognition engines 331 to 33n, and is subjected to voice recognition processing and converted into character data.

ここで、複数の音声認識エンジンで1つの部分音声データに対して認識処理を加えても良い。その場合、もっとも信頼性の高い音声認識結果を採用することができる。或いは、隣り合う2つの部分音声データをそれぞれの音声認識エンジンに入力して、音声認識エンジンは、その2つの部分音声データの組合せを認識しても良い。例えば、分割により一連の部分音声データ1〜3を生成したとすると、音声認識エンジン331で部分音声データ1と部分音声データ2の組合せを認識し、音声認識エンジン332で部分音声データ2と部分音声データ3の組合せを認識するという方法により、認識精度を向上させても良い。   Here, a recognition process may be added to one partial voice data by a plurality of voice recognition engines. In that case, the most reliable speech recognition result can be adopted. Alternatively, two adjacent partial speech data may be input to each speech recognition engine, and the speech recognition engine may recognize a combination of the two partial speech data. For example, if a series of partial voice data 1 to 3 is generated by division, the voice recognition engine 331 recognizes a combination of the partial voice data 1 and the partial voice data 2, and the voice recognition engine 332 recognizes the partial voice data 2 and the partial voice data. The recognition accuracy may be improved by a method of recognizing the combination of data 3.

認識結果結合部340は、認識結果を単数または複数用いて時系列に統合し、統合認識結果を作成する。同じ部分音声データに対する認識結果に重複がある場合(異なる辞書や認識方式により、複数の認識エンジンで1つの部分音声ファイルを認識した場合など)は認識結果を比較し、信頼度の高い方(特徴量のマッチングが多い方)を採用して統合認識結果を作成する。そして、統合認識結果を、文書出力部350に出力する。文書出力部350は、ユーザが認識結果としての文書を編集できるグラフィックインターフェースを生成して統合認識結果を出力する。   The recognition result combining unit 340 uses a single or a plurality of recognition results and integrates them in time series to create an integrated recognition result. If there is an overlap in the recognition results for the same partial speech data (such as when one partial speech file is recognized by multiple recognition engines using different dictionaries or recognition methods), the recognition results are compared and the one with higher reliability (features) Adopt the one with more amount matching) and create the integrated recognition result. Then, the integrated recognition result is output to the document output unit 350. The document output unit 350 generates a graphic interface that allows the user to edit the document as the recognition result and outputs the integrated recognition result.

図4は音声記憶部201に記憶された音声データを示す図である。ここでは、議事録の作成を支援するシステムを前提としているため、一つの会議について一つの音声データテーブル400が作成されるとする。音声データテーブル400には会議を識別するための記憶シーケンス番号401の他、場所、話者、内容などのコメント402が付与され、また、各音声ファイルが生成された日時を示すタイムスタンプと共にデジタル音声ファイル403が格納されている。   FIG. 4 is a diagram showing audio data stored in the audio storage unit 201. Here, since it is premised on a system that supports creation of minutes, it is assumed that one audio data table 400 is created for one meeting. In addition to the storage sequence number 401 for identifying the conference, the voice data table 400 is given a comment 402 such as a place, a speaker, and contents, and a digital voice together with a time stamp indicating the date and time when each voice file was generated. A file 403 is stored.

図5は、分割された音声データを管理するための部分音声データテーブル500を示している。各部分音声データは、例えば、10msや1s等の長さであり、タイムスタンプと共にシーケンシャルな番号を付加されている。これにより、認識結果の統合を正確に行なうことが可能となる。各部分音声データには、そのデータを認識するための認識エンジンを特定する認識エンジン番号が割り当てられる。更に、部分音声データテーブル500には、認識エンジン331〜33nでの認識結果を格納するエリアを有しており、各音節の示す文字を特定する。   FIG. 5 shows a partial audio data table 500 for managing the divided audio data. Each partial audio data has a length of 10 ms or 1 s, for example, and a sequential number is added together with a time stamp. This makes it possible to accurately integrate recognition results. Each partial speech data is assigned a recognition engine number that identifies a recognition engine for recognizing the data. Furthermore, the partial speech data table 500 has an area for storing the recognition results of the recognition engines 331 to 33n, and specifies the characters indicated by each syllable.

図6は、音声データの分割方法について説明するための図である。音声データの分割方法として、分割前の音声データを無音部分も含めて等分割する方法601と、分割前の音声データを無音部分を除いた音声部分を等分割する方法602と、が考えられる。方法601には、分割処理スピードが速いというメリットがあり、方法602には、音声認識スピードが速いというメリットがある。分割の間隔について、ユーザからの指示を受け付けてもよい。方法602は、言い換えると、音声ファイルに存在する無音の区間を検索し、無音区間が開始又は終了するタイミングで音声を分割する方法とも言える。有音区間の長さに応じて有音区間毎に分割時間を変更してもよい。また、有音区間同士を連結した上で分割処理を行なってもよい。   FIG. 6 is a diagram for explaining a method of dividing audio data. As a method of dividing the audio data, there can be considered a method 601 for equally dividing the audio data before the division including the silent portion, and a method 602 for equally dividing the audio portion excluding the silent portion from the audio data before the division. The method 601 has an advantage that the division processing speed is fast, and the method 602 has an advantage that the voice recognition speed is fast. You may receive the instruction | indication from a user about the space | interval of a division | segmentation. In other words, the method 602 can be said to be a method of searching for a silent section existing in an audio file and dividing the voice at a timing when the silent section starts or ends. You may change a division | segmentation time for every sound section according to the length of a sound section. Further, the dividing process may be performed after connecting the sound sections.

また、予め、分割前音声データにおける無音部分の割合を算出し、その無音割合が所定値よりも小さい場合には方法601を採用し、無音割合が処理値よりも多い場合には方法602を採用するように切り替えても良い。   Further, the ratio of the silent part in the pre-division voice data is calculated in advance, and the method 601 is adopted when the silent ratio is smaller than a predetermined value, and the method 602 is adopted when the silent ratio is larger than the processing value. You may switch to do.

更に、図7に示すように、分割された音声の前または後ろ、もしくは両方に前後の時間の音声の一部区間を持つような分割方法を採用しても良い。このような重複方式によれば各分割音声が重複している部分を持ち、一つ一つの部分音声データを長めに設定できるので、分割タイミングが悪いことによる誤認識を回避できる。更に部分音声データを長めに設定すれば、前後の文脈をも考慮してより正確に音声認識を行なうことが可能となる。もちろん、無重複方式も採用できる、無重複方式では互いに重複した区間を持たない。同じ音声を複数回変換することがないため、CPU消費時間やメモリ使用量などの資源を少なくすることができる。   Further, as shown in FIG. 7, a division method may be employed in which a partial section of the audio of the preceding and succeeding time is provided before or behind the divided audio, or both. According to such an overlap method, each divided sound has a portion where it is overlapped, and each partial sound data can be set longer, so that it is possible to avoid misrecognition due to poor division timing. Furthermore, if partial speech data is set longer, speech recognition can be performed more accurately in consideration of the context before and after. Of course, the non-overlapping method can also be adopted, and the non-overlapping method does not have overlapping sections. Since the same voice is not converted a plurality of times, resources such as CPU consumption time and memory usage can be reduced.

図8は、文書処理部203が生成してディスプレイ230に表示されるグラフィカルユーザインタフェース800を示す図である。これは一例であり、本発明はこれに限定されるものではない。グラフィカルユーザインタフェース800は、音声の波形表示欄801と、タイトル表示欄802と、認識結果としての文書データ表示欄803とを含む。更にグラフィカルユーザインタフェース800は、それぞれの文書データに対応する音声の開始時間を示すタイムスタンプ(全音声の開始時点からの経過時間)表示欄804を含む。   FIG. 8 is a diagram showing a graphical user interface 800 generated by the document processing unit 203 and displayed on the display 230. This is an example, and the present invention is not limited to this. The graphical user interface 800 includes an audio waveform display field 801, a title display field 802, and a document data display field 803 as a recognition result. Furthermore, the graphical user interface 800 includes a time stamp (elapsed time from the start time of all sounds) display field 804 indicating the start time of the sound corresponding to each document data.

また、文書データ表示欄803の下方には、再生ボタン805や音量ボタン806の他に、リピートボタン807などが用意されており、それぞれ再生操作、音量変更操作、リピート操作などに用いられる。文書データ表示欄803に表示された各文字は、その文字の認識材料となった音声データの位置と紐付けられている。従って、文書データ表示欄803に表示された文書の何れかの位置にカーソルを移動して、その状態で再生ボタン805をクリックすれば、その位置に対応する音声データが再生される。つまり、文書データに表示されている各文章は、音声データ単位を表わすものではなく、あくまでも文書編集の便宜のために一行ずつ表を構成しているものである。つまり、各行ごとに音声データが分割されている訳ではなく、このグラフィカルユーザインタフェース800で再生対象となる音声データは1つである。   In addition to the playback button 805 and volume button 806, a repeat button 807 and the like are prepared below the document data display field 803, and are used for playback operation, volume change operation, repeat operation, and the like, respectively. Each character displayed in the document data display field 803 is associated with the position of the voice data that is the material for recognizing the character. Therefore, if the cursor is moved to any position of the document displayed in the document data display field 803 and the playback button 805 is clicked in that state, the audio data corresponding to that position is played back. That is, each sentence displayed in the document data does not represent a voice data unit, but constitutes a table line by line for the convenience of document editing. That is, the audio data is not divided for each row, and there is only one audio data to be reproduced in this graphical user interface 800.

図8のように操作パネルが文書データ表示欄803の下方に配置されていることにより、ユーザは、文書データの確認、編集を行ないながら音声データの再生が行ない易いという利点がある。なお、文書データ表示欄803において、文書データは時系列に上方から下方に並んでいるが、下方から上方に向けて時系列に表示しても良い。その場合には、操作ボタン群805〜807を文書データ表示欄803の上方に配置することが望ましい。或いは、ユーザが文書データの表示順序を変更することができる場合に、その表示順序設定に応じて、操作ボタンの位置を変更してもよい。   Since the operation panel is arranged below the document data display field 803 as shown in FIG. 8, there is an advantage that the user can easily reproduce the audio data while checking and editing the document data. In the document data display field 803, the document data is arranged in time series from top to bottom, but may be displayed in time series from the bottom to the top. In that case, it is desirable to arrange the operation button groups 805 to 807 above the document data display field 803. Alternatively, when the user can change the display order of the document data, the position of the operation button may be changed according to the display order setting.

以上、本実施形態によれば、音声データを分割して複数の音声認識エンジンで並列処理を行なうため、非常に効率的に音声認識処理を行なうことができる。   As described above, according to this embodiment, since voice data is divided and parallel processing is performed by a plurality of voice recognition engines, voice recognition processing can be performed very efficiently.

(第3実施形態)
本発明の第3実施形態に係る音声処理システムについて図9を用いて説明する。図9は、本実施形態に係る音声処理システムに含まれる音声認識部902の内部構成を示す図である。音声認識部902以外の音声処理システムの構成は、上記第2実施形態と同様であるためここでは説明を省略する。
(Third embodiment)
A speech processing system according to the third embodiment of the present invention will be described with reference to FIG. FIG. 9 is a diagram illustrating an internal configuration of the speech recognition unit 902 included in the speech processing system according to the present embodiment. Since the configuration of the speech processing system other than the speech recognition unit 902 is the same as that of the second embodiment, description thereof is omitted here.

音声認識部902は、1つまたは複数の学習機能付音声認識エンジン931〜93nと、認識エンジン学習制御部960とを有する点で、第2実施形態における音声認識部202と異なる。その他の構成は、第2実施形態と同様であるため、同じ構成については同じ符号を付してその詳しい説明を省略する。   The speech recognition unit 902 is different from the speech recognition unit 202 in the second embodiment in that it includes one or more speech recognition engines with learning functions 931 to 93n and a recognition engine learning control unit 960. Since other configurations are the same as those of the second embodiment, the same components are denoted by the same reference numerals, and detailed description thereof is omitted.

認識エンジン931〜93nは入力された音声を文字列に変換する機能を有する。音声は音声分割部320から入力され、変換された文字列は認識結果結合部340に入力される。また、認識エンジン931〜93nは、音声を変換するごとに音声の性別や癖などを学習し、自律的に認識率を向上する機能を有する。認識エンジン学習制御部960は、各認識エンジンの学習性能を制御する。システム開始当初から複数の音声認識エンジンを起動するのではなく、当初は1つの音声認識エンジンを起動し、一定量の音声認識処理後に、その学習した結果を複製して複数のエンジンを立ち上げてもよい。   The recognition engines 931 to 93n have a function of converting input speech into a character string. The voice is input from the voice dividing unit 320, and the converted character string is input to the recognition result combining unit 340. Each of the recognition engines 931 to 93n has a function of learning the gender and habit of the voice every time the voice is converted and autonomously improving the recognition rate. The recognition engine learning control unit 960 controls the learning performance of each recognition engine. Instead of starting multiple speech recognition engines from the beginning of the system, initially start one speech recognition engine, and after a certain amount of speech recognition processing, duplicate the learned results and start up multiple engines. Also good.

本実施形態によれば、音声認識エンジン931〜93nは学習機能付であることから、一定量の音声認識処理をすることによって、性別や癖などを学習して認識率向上に役立てる。   According to the present embodiment, since the speech recognition engines 931 to 93n are equipped with a learning function, by performing a certain amount of speech recognition processing, they learn gender, wrinkles, and the like to help improve the recognition rate.

(他の実施形態)
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。
(Other embodiments)
As mentioned above, although embodiment of this invention was explained in full detail, the system or apparatus which combined the separate characteristic contained in each embodiment how was included in the category of this invention.

また、本発明は、複数の機器から構成されるシステムに適用されても良いし、単体の装置に適用されても良い。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システム或いは装置に直接或いは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、或いはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。   Further, the present invention may be applied to a system constituted by a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where an information processing program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a program installed in the computer, a medium storing the program, and a WWW (World Wide Web) server for downloading the program are also included in the scope of the present invention. .

Claims (11)

入力した音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データを分割する音声分割手段と、
前記音声分割手段による分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識手段と、
前記音声認識手段による認識結果としての文字データを統合して文書データを生成する統合手段と、
を備えたことを特徴とする音声処理装置。
Storage means for storing the input voice data;
Audio dividing means for dividing the audio data stored in the storage means;
Voice recognition means for recognizing a plurality of partial voice data generated by the division by the voice division means using at least two voice recognition engines and converting them into character data;
Integration means for integrating character data as a recognition result by the voice recognition means to generate document data;
An audio processing apparatus comprising:
前記音声認識手段は、
前記音声分割手段による分割によって生成された1つの部分音声データに対し、少なくとも2つの音声認識エンジンを用いて認識処理を加えることを特徴とする請求項1に記載の音声処理装置。
The voice recognition means
The speech processing apparatus according to claim 1, wherein recognition processing is performed on at least two speech recognition engines on one partial speech data generated by the speech partitioning unit.
前記音声分割手段は、分割前の音声データを無音部分も含めて等分割することを特徴とする請求項1又は2に記載の音声処理装置。   The audio processing apparatus according to claim 1, wherein the audio dividing unit equally divides the audio data before division including a silent part. 前記音声分割手段は、分割前の音声データから無音部分を除いた音声部分を等分割することを特徴とする請求項1又は2に記載の音声処理装置。   The audio processing apparatus according to claim 1, wherein the audio dividing unit equally divides an audio portion obtained by removing a silent portion from audio data before division. 前記音声分割手段は、ユーザからの指示を受け付け、該指示に応じて分割の間隔を変更することを特徴とする請求項1乃至4の何れか1項に記載の音声処理装置。   The voice processing apparatus according to claim 1, wherein the voice dividing unit receives an instruction from a user and changes a division interval according to the instruction. 前記音声分割手段は、前記音声データに存在する無音区間を検索し、無音区間が開始又は終了するタイミングで前記音声データを分割することを特徴とする請求項1乃至5の何れか1項に記載の音声処理装置。   6. The voice dividing unit searches for a silent section existing in the voice data, and divides the voice data at a timing when the silent section starts or ends. Voice processing device. 前記音声分割手段は、前記音声データに存在する有音区間の長さに応じて有音区間毎に分割間隔を変更することとを特徴とする請求項6に記載の音声処理装置。   The speech processing apparatus according to claim 6, wherein the voice dividing unit changes a division interval for each voiced section according to a length of a voiced section existing in the voice data. 前記音声分割手段は、前記音声データにおける無音区間の割合を算出し、その無音割合が所定値よりも小さい場合には分割前の音声データを無音部分も含めて等分割し、前記無音割合が処理値よりも多い場合には分割前の音声データから無音部分を除いた音声部分を等分割することを特徴とする請求項1乃至7の何れか1項の記載の音声処理装置。     The voice dividing means calculates a ratio of a silent section in the voice data, and if the silent ratio is smaller than a predetermined value, the voice data before the division is divided equally including a silent part, and the silent ratio is processed. 8. The audio processing apparatus according to claim 1, wherein when the number is larger than the value, the audio part obtained by removing the silent part from the audio data before division is equally divided. 前記音声分割手段は、前記部分音声データの端部同士が重複した音声データを有するように、前記音声データを分割することを特徴とする請求項1乃至8の何れか1項に記載の音声処理装置。   The audio processing according to any one of claims 1 to 8, wherein the audio dividing unit divides the audio data so that end portions of the partial audio data have overlapping audio data. apparatus. 記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
を含むことを特徴とする音声処理方法。
An audio dividing step for dividing the audio data stored in the storage means;
A voice recognition step of recognizing a plurality of partial voice data generated by the division in the voice division step using at least two voice recognition engines and converting the data into character data;
An integration step of generating document data by integrating character data as a recognition result in the voice recognition step;
A speech processing method comprising:
記憶手段に記憶された音声データを分割する音声分割ステップと、
前記音声分割ステップによる分割によって生成された複数の部分音声データを少なくとも2つの音声認識エンジンを用いて認識し、文字データに変換する音声認識ステップと、
前記音声認識ステップによる認識結果としての文字データを統合して文書データを生成する統合ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。
An audio dividing step for dividing the audio data stored in the storage means;
A voice recognition step of recognizing a plurality of partial voice data generated by the division in the voice division step using at least two voice recognition engines and converting the data into character data;
An integration step of generating document data by integrating character data as a recognition result in the voice recognition step;
A sound processing program for causing a computer to execute.
JP2011043572A 2011-03-01 2011-03-01 Voice processing device, voice processing method and voice processing program Pending JP2012181307A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011043572A JP2012181307A (en) 2011-03-01 2011-03-01 Voice processing device, voice processing method and voice processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011043572A JP2012181307A (en) 2011-03-01 2011-03-01 Voice processing device, voice processing method and voice processing program

Publications (1)

Publication Number Publication Date
JP2012181307A true JP2012181307A (en) 2012-09-20

Family

ID=47012565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011043572A Pending JP2012181307A (en) 2011-03-01 2011-03-01 Voice processing device, voice processing method and voice processing program

Country Status (1)

Country Link
JP (1) JP2012181307A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013101204A (en) * 2011-11-08 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> Voice recognition device, method thereof, and program
CN110634481A (en) * 2019-08-06 2019-12-31 惠州市德赛西威汽车电子股份有限公司 Voice integration method for outputting optimal recognition result
WO2021181451A1 (en) * 2020-03-09 2021-09-16 日本電気株式会社 Speech recognition device, control method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6129896A (en) * 1984-07-20 1986-02-10 日本電信電話株式会社 Word voice recognition equipment
JP2006011066A (en) * 2004-06-25 2006-01-12 Nec Corp Voice recognition/synthesis system, synchronous control method, synchronous control program and synchronous controller
JP2007293600A (en) * 2006-04-25 2007-11-08 Ziosoft Inc Medical-use server device, input device, proofreading device, browsing device, voice input report system, and program
JP2008107624A (en) * 2006-10-26 2008-05-08 Kddi Corp Transcription system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6129896A (en) * 1984-07-20 1986-02-10 日本電信電話株式会社 Word voice recognition equipment
JP2006011066A (en) * 2004-06-25 2006-01-12 Nec Corp Voice recognition/synthesis system, synchronous control method, synchronous control program and synchronous controller
JP2007293600A (en) * 2006-04-25 2007-11-08 Ziosoft Inc Medical-use server device, input device, proofreading device, browsing device, voice input report system, and program
JP2008107624A (en) * 2006-10-26 2008-05-08 Kddi Corp Transcription system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013101204A (en) * 2011-11-08 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> Voice recognition device, method thereof, and program
CN110634481A (en) * 2019-08-06 2019-12-31 惠州市德赛西威汽车电子股份有限公司 Voice integration method for outputting optimal recognition result
CN110634481B (en) * 2019-08-06 2021-11-16 惠州市德赛西威汽车电子股份有限公司 Voice integration method for outputting optimal recognition result
WO2021181451A1 (en) * 2020-03-09 2021-09-16 日本電気株式会社 Speech recognition device, control method, and program
JPWO2021181451A1 (en) * 2020-03-09 2021-09-16
JP7501610B2 (en) 2020-03-09 2024-06-18 日本電気株式会社 Voice recognition device, control method, and program

Similar Documents

Publication Publication Date Title
US20200372896A1 (en) Audio synthesizing method, storage medium and computer equipment
US8359202B2 (en) Character models for document narration
US9489938B2 (en) Sound synthesis method and sound synthesis apparatus
US9064484B1 (en) Method of providing feedback on performance of karaoke song
CN110740275B (en) Nonlinear editing system
US20180226101A1 (en) Methods and systems for interactive multimedia creation
JP6280312B2 (en) Minutes recording device, minutes recording method and program
US9524751B2 (en) Semi-automatic generation of multimedia content
JP2021182438A (en) Moving image generating method, device, electronic apparatus, and computer readable medium
JP4741406B2 (en) Nonlinear editing apparatus and program thereof
CN109845249A (en) With the method and system of the synchronous MIDI file of external information
JP2014202848A (en) Text generation device, method and program
JP2012181307A (en) Voice processing device, voice processing method and voice processing program
KR101493006B1 (en) Apparatus for editing of multimedia contents and method thereof
JP2013164609A (en) Singing synthesizing database generation device, and pitch curve generation device
JP2006236037A (en) Voice interaction content creation method, device, program and recording medium
CN113611268A (en) Musical composition generation and synthesis method and device, equipment, medium and product thereof
JP2005326811A (en) Voice synthesizer and voice synthesis method
JP2006284645A (en) Speech reproducing device, and reproducing program and reproducing method therefor
US11481185B1 (en) Method and system for tagging and navigating through performers and other information on time-synchronized content
KR101030777B1 (en) Method and apparatus for producing script data
JP7166370B2 (en) Methods, systems, and computer readable recording media for improving speech recognition rates for audio recordings
KR102274275B1 (en) Application and method for generating text link
JP7128222B2 (en) Content editing support method and system based on real-time generation of synthesized sound for video content
JP7166373B2 (en) METHOD, SYSTEM, AND COMPUTER-READABLE RECORDING MEDIUM FOR MANAGING TEXT TRANSFORMATION RECORD AND MEMO TO VOICE FILE

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130808

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140417

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140425

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140530

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140613