JP2019090917A - Voice-to-text conversion device, method and computer program - Google Patents
Voice-to-text conversion device, method and computer program Download PDFInfo
- Publication number
- JP2019090917A JP2019090917A JP2017219292A JP2017219292A JP2019090917A JP 2019090917 A JP2019090917 A JP 2019090917A JP 2017219292 A JP2017219292 A JP 2017219292A JP 2017219292 A JP2017219292 A JP 2017219292A JP 2019090917 A JP2019090917 A JP 2019090917A
- Authority
- JP
- Japan
- Prior art keywords
- data
- text
- voice
- speech
- converting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、音声データをテキスト化する技術に関する。 The present invention relates to a technology for converting speech data into text.
近年、音声データをテキスト化するサービスの需要が高まっている。議事録の作成などでは音声データが作成されるが、音声データよりもテキストデータのうほうが後々の確認等では便利である。
この点について例えば、特許文献1では、音声通話していする複数の通話者に対して、同時的に通話音声を文字化してデータ配信する方法が提案されている。
また、特許文献2、3では、作業者によって音声データをテキストデータに変換させる装置が提案されている。
In recent years, the demand for services for converting speech data into text has been increasing. Although voice data is created in the creation of the minutes, text data is more convenient for later confirmation than voice data.
With regard to this point, for example,
Further, in
しかしながら、上記特許文献記載の技術では、無音部分を含めて音声データをテキスト化するため、装置に対して無駄な処理負担をかけてしまっている。即ち、無音部分はテキスト化されないにもかかわらず、テキスト化処理をかけることは無駄な処理を実行することになる。 However, in the technique described in the above-mentioned patent document, since the voice data including the silent part is converted into text, an unnecessary processing load is imposed on the device. That is, although the silent part is not textified, applying textification processing will execute useless processing.
一方、データサイズが大きくなり易い長時間の音声データ等を分割して随時テキスト化させる場合、分割位置で誤変換がなされ、正確なテキスト化を期すことができなくなるおそれがある。 On the other hand, when long-time voice data or the like in which the data size tends to be large is divided and converted into text as needed, incorrect conversion may be performed at divided positions, and accurate conversion into text may not be possible.
そこで、本発明は、音声データのテキスト化処理において、音声データをテキストデータに変換するエンジンに負担をかけることなく、正確なテキストデータを得ることを目的とする。 Therefore, the present invention has an object of obtaining accurate text data without putting a load on an engine for converting speech data into text data in text conversion processing of speech data.
上記目的を達成するため、本発明に係る音声データテキスト化装置は、音声データをテキスト化するための装置であって、上記音声データをテキスト化する音声テキスト化エンジンと、ネットワークを介して通信可能に構成され、上記音声データを所定の単位時間で分割して分割データを生成する分割処理手段と、上記分割データから無音部を削除した圧縮データを生成する圧縮処理手段と、上記音声テキスト化エンジンに対し、上記圧縮データを送信する圧縮データ送信手段と、上記音声テキスト化エンジンから、上記圧縮データをテキスト化させた結合前テキストデータを受信する結合前テキストデータ受信手段と、上記結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する結合処理手段と、を有することを特徴とする。 In order to achieve the above object, an audio data text converting apparatus according to the present invention is an apparatus for converting audio data into text, and can communicate with an audio text converting engine which converts the audio data into text through a network A division processing unit configured to divide the audio data by a predetermined unit time to generate divided data; a compression processing unit configured to generate compressed data in which a silent portion is deleted from the divided data; A compressed data transmission unit for transmitting the compressed data, a pre-combination text data receiving unit for receiving the pre-combination text data obtained by converting the compressed data into text data from the speech-to-text engine, the pre-combination text data And combining processing means for generating text data after combining in the order before division. And butterflies.
また、上記分割手段は、上記音声データの開始位置から所定の単位時間ごとの区切位置が無音部である場合には当該無音部で上記音声データを分割して分割データを生成し、上記音声データの開始位置から所定の単位時間ごとの区切位置が有音部である場合には、当該有音部より前の一定時間内にある無音部で上記音声データを分割して分割データを生成するものとしてもよい。 Further, the dividing means divides the audio data by the silent portion to generate divided data when the sectioning position for each predetermined unit time from the start position of the audio data is a silent portion, and the audio data is generated. When the demarcation position for each predetermined unit time from the start position of is a talkative part, the speech data is divided by a silent part within a certain time before the talkative part to generate divided data It may be
また、上記音声データの音量を所定の音量に調整する音量調整手段、をさらに有し、上記分割手段は、所定の音量に調整された音声データを所定の単位時間で分割して分割データを生成するものとしてもよい。 The image processing apparatus further includes volume adjustment means for adjusting the volume of the audio data to a predetermined volume, and the division means divides the audio data adjusted to a predetermined volume by a predetermined unit time to generate divided data. It is also possible to
また、上記圧縮データに対して識別情報を発行する識別情報発行手段、をさらに有し、上記結合処理手段は、上記識別情報に基づき、上記結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成するものとしてもよい。 Further, the information processing apparatus further comprises identification information issuing means for issuing identification information to the compressed data, and the combination processing means combines the pre-combination text data in the order before division based on the identification information. Text data may be generated.
また、ユーザが利用するユーザ端末と、さらにネットワークを介して通信可能に構成され、上記ユーザ端末から、上記音声データを受信する音声データ受信手段と、上記ユーザ端末に対し、上記結合後テキストデータを送信する結合後テキストデータ送信手段と、をさらに有するものとしてもよい。 Further, it is configured to be communicable with the user terminal used by the user via the network, and the voice data receiving means for receiving the voice data from the user terminal, and the post-join text data to the user terminal. And a post-combination text data transmission means for transmitting.
また、本発明の別の観点に係る音声データテキスト化方法は、音声データをテキスト化するための方法であって、上記音声データをテキスト化する音声テキスト化エンジンと、ネットワークを介して通信可能に構成されたコンピュータにより、上記音声データを所定の単位時間で分割して分割データを生成する分割処理と、上記分割データから無音部を削除した圧縮データを生成する圧縮処理と、上記音声テキスト化エンジンに対し、上記圧縮データを送信する圧縮データ送信処理と、上記音声テキスト化エンジンから、上記圧縮データをテキスト化させた結合前テキストデータを受信する結合前テキストデータ受信処理と、上記結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する結合処理と、を実行することを特徴とする。 Further, according to another aspect of the present invention, there is provided an audio data text conversion method for converting audio data into text data, the method comprising: communication with an audio text conversion engine for converting the audio data into text data via a network A division process of dividing the audio data by a predetermined unit time to generate divided data, a compression process of generating compressed data in which silent parts are deleted from the divided data, and the speech-to-text engine; A compressed data transmission process for transmitting the compressed data, a pre-combination text data reception process for receiving the pre-combination text data obtained by converting the compressed data into a text form from the speech-to-text engine, the pre-combination text data Execute combining processing to generate text data after combining combining in the order before division And features.
また、本発明の別の観点に係るコンピュータプログラムは、音声データをテキスト化するためのコンピュータプログラムであって、上記音声データをテキスト化する音声テキスト化エンジンと、ネットワークを介して通信可能に構成されたコンピュータに対し、上記音声データを所定の単位時間で分割して分割データを生成する分割処理と、上記分割データから無音部を削除した圧縮データを生成する圧縮処理と、上記音声テキスト化エンジンに対し、上記圧縮データを送信する圧縮データ送信処理と、上記音声テキスト化エンジンから、上記圧縮データをテキスト化させた結合前テキストデータを受信する結合前テキストデータ受信処理と、上記結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する結合処理と、を実行させる。 A computer program according to another aspect of the present invention is a computer program for converting voice data into text, and is configured to be communicable with a voice-to-text engine that converts the voice data into text via a network. A division process of dividing the voice data by a predetermined unit time to generate divided data, a compression process of generating compressed data obtained by deleting silent parts from the divided data, and the voice-to-text engine A compressed data transmission process for transmitting the compressed data, a pre-combination text data reception process for receiving the pre-combination text data obtained by converting the compressed data into a text from the speech-to-text engine, the pre-combination text data A combining process for generating post-join text data combined in the order before division To the execution.
本発明に係る音声テキスト化装置によれば、音声データのテキスト化処理において、音声データをテキストデータに変換するエンジンに負担をかけることなく、正確なテキストデータを得ることができる。 According to the speech-to-text device according to the present invention, accurate text data can be obtained without putting a load on an engine for converting speech data into text data in the textification process of speech data.
以下、本発明の実施形態に係る音声テキスト化装置について、図を参照して説明する。
音声テキスト化装置は、音声データをテキスト化するための装置であって、音声データに所定の処理を実行した上、処理済みの音声データを音声テキスト化エンジンに送ってテキスト化させる装置である。
Hereinafter, a speech-to-text device according to an embodiment of the present invention will be described with reference to the drawings.
The voice-to-text device is a device for text-to-speech voice data, and is a device that performs predetermined processing on the voice data and sends processed voice data to the voice-to-text engine to make it into text.
図1に示される音声テキスト化装置1は、音声テキスト化エンジン2及びユーザ端末3とインターネット等のネットワークNWを介して通信可能に構成されている。
The voice-to-
音声テキスト化装置1は、CPU(Central Processing Unit)などの演算装置、RAM(Random Access Memory)やROM(Read Only Memory)などの記憶装置により、識別情報記憶部1A、音量調整部11、分割処理部12、圧縮処理部13、識別情報発行部14、結合処理部15、及び通信処理部16からなる機能ブロックを構成する。
The voice-to-
識別情報記憶部1Aは、識別情報発行部14が圧縮データに対して発行、付与した識別情報や、当該圧縮データに関する情報を記憶する記憶部である。
この識別情報記憶部1Aには例えば、図2に示されるように、後述する圧縮データごとに発行、付与された識別情報のほか、圧縮データのファイル名、ファイルサイズ、作成日などが記憶される。
ここで、識別情報は、個々の圧縮データを識別すると共に結合順序を把握可能にするための情報であり、結合処理部15によって実行される結合処理の際に参照される。
The identification
For example, as shown in FIG. 2, the identification
Here, the identification information is information for identifying individual compressed data and making it possible to grasp the coupling order, and is referred to in the coupling processing performed by the
音量調整部11は、音声データの音量を所定の音量に調整する処理を実行する。
この処理は例えば、音声データを-10[db]に抑えるもので、これにより、処理を施す前の音声データ中に音量の異なる部分が存在しても、テキスト化処理において誤った変換がなされるのを防ぐことができる。
The
This processing is, for example, to suppress audio data to -10 [db], whereby erroneous conversion is made in the textification processing even if there is a portion with different volume in the audio data before processing You can prevent that.
分割処理部12は、音声データを所定の単位時間で分割して分割データを生成する。
この処理では、音声データを開始位置から所定の単位時間ごとに区切る。このとき、区切位置が無音部である場合には、当該無音部で音声データを分割し、区切位置が有音部である場合には、区切位置より前の一定時間内にある無音部で音声データを分割して分割データを生成する。
なお、本例における分割処理部12は、音量調整部11によって所定の音量に調整された音声データを分割して分割データを生成する。
The
In this process, voice data is divided from the start position every predetermined unit time. At this time, when the break position is a silent portion, the voice data is divided at the silent portion, and when the break position is a talkative portion, the sound is silent at a silent portion within a predetermined time before the break position. Divide data to generate divided data.
The
ここで、分割処理部12による音声データの分割処理について、具体例を図3によって説明する。
音声データ100は、有音部101a、101b、101c、101d、101eと、無音部102a、102b、102c、102d、102eによって構成される。なお、以下では説明の便宜のため、有音部101a、101b、101c、101d、101eについて、各構成要素に着目しない場合にはまとめて有音部101と称することがある。また、無音部102a、102b、102c、102d、102eについても同様に無音部102と称することがある。
なお、有音部101とは、一定以上の音量を有する部分である。また、無音部102とは、無音の部分、又は一定未満の音量しか有さず、無音とみなされた部分である。有音部101と無音部102とに分ける音量の基準は、任意に設定し得る。
Here, a specific example of audio data division processing by the
The
Note that the sound producing unit 101 is a portion having a certain volume or more. The silent portion 102 is a silent portion or a portion having a volume less than a predetermined level and regarded as silent. The reference of the volume divided into the sound part 101 and the silent part 102 can be set arbitrarily.
このような音声データについて、分割処理部12は、音声データの開始位置から50[sec]を単位時間として順次、区切位置を設定する。
図3(a)の例は、区切位置100aが、無音部102bに設定された場合を示している。この場合には、当該区切位置100a又は無音部102bを分割位置として音声データ100が分割される。
一方、図3(b)の例は、区切位置100bが、有音部101cに設定された場合を示している。この場合には、区切位置100bから10[sec]前以内にある無音部102bを分割位置として音声データ100が分割される。
このように、分割処理部12によって音声データ100に対して分割処理が実行されると、図4に示されるように、音声データ100は所定の分割位置(図3の例では無音部102b)で分割された複数の分割データ110a、110bとなる。なお、分割データ110bには、区切位置100bから分割位置の102bまでの時間分の音声データが含まれる。
このように音声データ100が分割されることで、一つのまとまった意味をもった単語が不自然に分割されるのを防ぐことができる。その結果、音声テキスト化エンジン2によるテキスト化処理において、誤った変換がなされるのを防ぐことができる。
With respect to such voice data, the
The example of FIG. 3A shows the case where the
On the other hand, the example of FIG. 3B shows the case where the
As described above, when the
By dividing the
圧縮処理部13は、分割処理部12によって生成された分割データから無音部を削除した圧縮データを生成する。
この処理の具体例を図4、図5に示す。
図4は、図3の例から続く処理によって、音声データ100が有音部101bと有音部101cの間で分割された状態を示している。なお、無音部102bは分割されて無音部102b1、102b2となっている。
圧縮処理部13はこの状態から、図5に示されるように無音部102a、102b1、102b2、102c、102dを削除する。これによって音声データ100は、有音部100が連続した複数の圧縮データ120a、120bとなる。
The
The specific example of this process is shown in FIG. 4 and FIG.
FIG. 4 shows a state in which the
識別情報発行部14は、圧縮処理部13によって生成された各圧縮データに対して識別情報を発行し、付与する。
識別情報は、個々の圧縮データを識別すると共にその順序を把握可能にするための情報であり、識別情報記憶部1Aに記憶されると共に、結合処理部15によって実行される結合処理の際に参照される。
The identification
The identification information is information for identifying each compressed data and making it possible to grasp the order, and is stored in the identification
結合処理部15は、結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する処理を実行する。
ここで、音声テキスト化装置1は、圧縮データを生成すると、音声テキスト化エンジン2に対して当該圧縮データのテキスト化処理要求と共に当該圧縮データを送信する。音声テキスト化エンジン2において圧縮データをテキスト化させた結合前テキストデータが生成されると、音声テキスト化装置1は音声テキスト化エンジン2から当該結合前テキストデータを受信する。このとき、結合前テキストデータは、テキスト化する前の圧縮データに対して付与されていた識別情報を保持しており、結合処理部15は識別情報記憶部1Aを参照して、結合前テキストデータを音声データ時の順序に並べて結合する。
これにより、音声データをテキスト化させた結合後テキストデータが生成される。
The combining
Here, when generating the compressed data, the voice-to-
As a result, post-combination text data in which speech data is converted into text is generated.
通信処理部16は、インターネト等のネットワークNWを介して、音声テキスト化エンジン2やユーザ端末3と種々のデータの送受信を実行する処理部である。
この通信処理部16は例えば、音声テキスト化エンジン2との間で、圧縮データを送信したり、結合前テキストデータを受信したりする。また、ユーザ端末3との間では、音声データを受信したり、結合後テキストデータを送信したりする。
The
The
音声テキスト化エンジン2は、音声データをテキスト化するデータ処理エンジンである。
この音声テキスト化エンジン2は、音声データ中の単語を識別する識別手段、識別される単語の音声データとテキストデータが関連付けられ、変換処理の参照先となる辞書手段などの機能部を有している。
The voice-to-
The speech-to-
ユーザ端末3は、音声データテキスト化装置と音声データテキスト化エンジンによって構成される音声データテキスト化システムのユーザが利用する端末であり、ユーザは当該ユーザ端末3により、所定の音声データをテキスト化したテキストデータを得る。
The
このユーザ端末3は例えば、所謂スマートフォンやタブレット端末、パーソナルコンピュータなどの端末で構成され、音声テキスト化装置1とインターネット等のネットワークNWを介したデータの送受信を実行したり、各種のデータの入出力を実行したりすることができる。
The
続いて、本実施形態に係る音声テキスト化装置1によって実行される一連の処理の流れについて、図6を参照して説明する。
まず、ユーザはユーザ端末3により、音声テキスト化装置1に対して、所望の音声データと共に当該音声データのテキスト化要求を送信する(S101)。
Subsequently, a flow of a series of processes executed by the speech to text
First, the user transmits a request for converting the voice data into a text as well as desired voice data to the voice-to-
音声データを受信した音声テキスト化装置1は、音量調整部11により、音声データの音量を所定の音量に調整する(S102)。
音声データの音量が調整されると、分割処理部12は、音量調整後の音声データを所定の単位時間で分割して分割データを生成する(S103)。
分割データを生成する分割処理では、音声データを開始位置から所定の単位時間ごとの区切位置で区切る。このとき、区切位置が無音部である場合には当該無音部で音声データを分割し、区切位置が有音部である場合には、当該有音部より前の一定時間内にある無音部で音声データを分割して分割データを生成する。
In the voice-to-
When the volume of the audio data is adjusted, the
In division processing for generating divided data, audio data is divided at a division position for each predetermined unit time from the start position. At this time, when the break position is a silent portion, the voice data is divided by the silent portion, and when the break position is a sound portion, the silent portion is within a predetermined time before the sound portion. The voice data is divided to generate divided data.
続けて圧縮処理部13は、分割処理部12によって生成された分割データから無音部を削除した圧縮データを生成する(S104)。
圧縮データが生成されると、識別情報発行部14により、各圧縮データに対して識別情報が発行、付与される(S105)。
識別情報は、個々の圧縮データを識別すると共にその順序を把握可能にするための情報であり、発行に応じて識別情報記憶部1Aに登録される(S106)。
Subsequently, the
When the compressed data is generated, the identification
The identification information is information for identifying each compressed data and making it possible to grasp the order, and is registered in the identification
圧縮データは、音声テキスト化装置1から音声テキスト化エンジン2に対し、テキスト化要求と共に送信される(S107)。
音声テキスト化エンジン2は、圧縮データの受信に応じて、当該圧縮データのテキスト化処理を実行する(S108)。
テキスト化処理によって圧縮データがテキスト化され、結合前テキストデータが生成されると、当該結合前テキストデータが音声テキスト化装置1に対して送信される(S109)。
The compressed data is transmitted from the
In response to the reception of the compressed data, the voice-to-
When the compressed data is converted into text by the text conversion process and the pre-combination text data is generated, the pre-combination text data is transmitted to the speech to text apparatus 1 (S109).
音声テキスト化エンジン2から結合前テキストデータを受信した音声テキスト化装置1は、結合処理部15により、結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する(S110)。なお、結合処理部15はこの処理において、結合前テキストデータが保持している識別情報に基づき、識別情報記憶部1Aを参照して、結合前テキストデータを音声データ時の順序に並べて結合する。
The
生成された結合後テキストデータは、通信処理部16により、ユーザ端末3に対して送信される(S111)。
これにより、ユーザは、所望の音声データをテキスト化させたデータを得ることができる。
本実施形態に係る音声テキスト化装置1によれば、音声テキスト化装置において予め無音部が削除されるため、音声テキスト化エンジンに無音部をテキスト化させることがなく、音声テキスト化エンジンの処理負担を軽減できる。
また、音声データは、所定の単位時間の区切位置の無音部、又は当該区切位置前に存する無音部で分割されるため、単語が途中で分割されることがなく、誤った変換が行われるのを防ぐことができる。
The generated combined text data is transmitted by the
Thereby, the user can obtain data in which desired voice data is converted into text.
According to the voice-to-
In addition, since the voice data is divided by the silent portion at the break position of the predetermined unit time or the silent portion existing before the break position, the word is not divided midway, and erroneous conversion is performed. You can prevent.
次に、以上の本実施形態に係る音声テキスト化装置の変形例について、図7を参照して説明する。
本例においては、上述した音声テキスト化装置1は、音声テキスト化処理部41として所謂スマートフォンやパーソナルコンピュータ等によって構成されるユーザ端末4に組み込まれ、アプリケーションソフトウェアとして機能する。
なお、以下の説明において、上述した音声テキスト化装置1が備える機能部と同様の機能を奏する機能部については上記と同様の符号を付している。
Next, a modification of the speech-to-text device according to the above-described embodiment will be described with reference to FIG.
In the present embodiment, the above-described voice-to-
In the following description, the same reference numerals as in the above description are assigned to functional units that perform the same functions as the functional units included in the above-described voice-to-
本実施形態において、ユーザ端末4は、音声テキスト化処理部41、入出力処理部42、及び通信処理部43からなる機能部を有し、音声テキスト化エンジン2とインターネット等のネットワークNWを介して通信可能に構成されている。
さらに、音声テキスト化処理部41は、識別情報記憶部1A、音量調整部11、分割処理部12、圧縮処理部13、識別情報発行部14、及び結合処理部15から構成される。
In the present embodiment, the
Further, the voice-to-
入出力処理部42は、各種のデータを入力したり、出力したりする機能部であって、ディスプレイやタッチパネル等によって構成される。
通信処理部43は、音声テキスト化エンジン2とネットワークNWを介したデータの送受信を実行するための機能部であって、ブラウザプログラム等によって実現される。
The input /
The
次に、本例に係るユーザ端末において、音声データがテキスト化される処理の流れを図8に示す。なお、図6を参照して説明した上述の例と同様の処理については同様の符号を付している。
まず、ユーザがユーザ端末4に対し、端末内に蓄積されている所望の音声データについて、テキスト化処理の実行を要求すると、音声調整部11によって当該音声データの音量が所定の音量に調整される(S102)。
音声データの音量が調整されると、分割処理部12は、音量調整後の音声データを所定の単位時間で分割して分割データを生成し(S103)、圧縮処理部13は、分割処理部12によって生成された分割データから無音部を削除した圧縮データを生成する(S104)。
各圧縮データに対しては、識別情報発行部14により識別情報が発行、付与され(S105)、当該識別情報は、個々の圧縮データを識別すると共にその順序を把握可能にするための情報として識別情報記憶部1Aに登録される(S106)。
Next, in the user terminal according to this example, a flow of processing for converting voice data into text is shown in FIG. The same processes as those in the above-described example described with reference to FIG.
First, when the user requests the
When the sound volume of the audio data is adjusted, the
Identification information is issued and added to each compressed data by the identification information issuing unit 14 (S105), and the identification information is identified as information for identifying individual compressed data and making it possible to grasp the order thereof. It is registered in the
圧縮データは、ユーザ端末4から音声テキスト化エンジン2に対し、テキスト化要求と共に送信される(S107)。
音声テキスト化エンジン2において、圧縮データのテキスト化処理が実行されると(S108)、結合前テキストデータがユーザ端末4に対して送信される(S109)。
The compressed data is transmitted from the
When the text-to-text processing of the compressed data is executed in the voice-to-text engine 2 (S108), the pre-combination text data is transmitted to the user terminal 4 (S109).
音声テキスト化エンジン2から結合前テキストデータを受信したユーザ端末4は、結合処理部15により、結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する(S110)。
このように、ユーザ端末4にアプリケーションソフトウェアとしてテキスト化処理部41をインストールさせて実行可能とすれば、ユーザ端末4から直接、音声テキスト化エンジン2に音声データを送信させて、テキストデータを得られるようにすることができる。
The
As described above, if the
なお、以上の本実施形態においては、一のファイルとして完結した音声データのみならず、作成中の音声データも随時、テキスト化させることができる。
この場合の処理について、図9を参照して説明する。
図9(a)は、録音中の音声データのように、音声データが生成されている途中の様子を示している。音声データ100には、開始位置から50[sec]を単位時間として順次、区切位置が設定され、図9(a)では、区切位置100bが作成中の有音部101cに設けられた状態となっている。
In the above embodiment, not only voice data completed as one file but also voice data being created can be converted to text as needed.
The process in this case will be described with reference to FIG.
FIG. 9A shows a state in which voice data is being generated as voice data being recorded. In the
この例ではまず、区切位置100bによって区切られた50[sec]の区間について音量が調整された上で、上述した分割以降の処理が実行される。
即ち、図9(a)の例については、上述のように、区切位置100bから10[sec]前以内にある無音部102bを分割位置として音声データ100が分割され、図9(b)に示すにように分割データ110aが生成される。
In this example, first, after the sound volume is adjusted for the section of 50 [sec] divided by the
That is, for the example of FIG. 9A, as described above, the
圧縮処理部13はこの状態から、図9(c)に示されるように無音部102a、102b1を削除し、圧縮データ120aを生成する。圧縮データ120aは、音声テキスト化エンジンによってテキスト化され、ユーザ端末に送信される。
一方、分割データ110aに続く分割データ110bは、区切り位置100bから所定の単位時間分(本例では50[sec])、音声データが生成されるのを待ってテキスト化が実行される。
On the other hand, the divided
本例による処理の流れについて、上述のユーザ端末4による場合を例にとって、図10を参照して説明する。
まず、ユーザがユーザ端末4により例えば、録音中の音声データについて、テキスト化処理の実行を要求する。
これに応じてテキスト化処理部41は、音声データが所定時間分に達したか否かを判断する(S202)。音声データが所定時間分に達した場合には、当該所定時間で音声データを区切り、音声調整部11によって当該音声データの音量を所定の音量に調整する(S102)。
音声データの音量が調整されると、分割処理部12は、音量調整後の音声データを所定の単位時間で分割して分割データを生成し(S103)、圧縮処理部13は、分割処理部12によって生成された分割データから無音部を削除した圧縮データを生成する(S104)。
各圧縮データに対しては、識別情報発行部14により識別情報が発行、付与され(S105)、当該識別情報は、個々の圧縮データを識別すると共にその順序を把握可能にするための情報として識別情報記憶部1Aに登録される(S106)。
The flow of processing according to this example will be described with reference to FIG. 10, using the above-described case of the
First, the user requests the
In response to this, the text
When the sound volume of the audio data is adjusted, the
Identification information is issued and added to each compressed data by the identification information issuing unit 14 (S105), and the identification information is identified as information for identifying individual compressed data and making it possible to grasp the order thereof. It is registered in the
圧縮データは、ユーザ端末4から音声テキスト化エンジン2に対し、テキスト化要求と共に送信される(S107)。
音声テキスト化エンジン2において、圧縮データのテキスト化処理が実行されると(S108)、結合前テキストデータがユーザ端末4に対して送信される(S109)。
音声テキスト化エンジン2から結合前テキストデータを受信したユーザ端末4は、結合処理部15により、結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する(S110)。
音声データがまだ続くか否かが判別され(S202)、まだテキスト化していない音声データが続く場合には、S201の処理に戻って、続く音声データのテキスト化処理が続行される。一方、テキスト化する音声データが終了した場合には、一連の処理を終了する。
これにより、作成中の音声データについても随時、テキスト化される。
The compressed data is transmitted from the
When the text-to-text processing of the compressed data is executed in the voice-to-text engine 2 (S108), the pre-combination text data is transmitted to the user terminal 4 (S109).
The
It is determined whether or not the audio data still continues (S202), and if the audio data that has not been converted into text continues, the process returns to S201 to continue the conversion of the audio data into text. On the other hand, when the voice data to be converted to text is finished, the series of processes is finished.
As a result, the voice data being created is also textified as needed.
なお、以上の本発明の実施形態においては、音声データの分割は、区切位置が有音部となる場合、当該区切位置よりも前の一定時間内にある無音部で実行されるものとしたが、これに限らず、区切位置の後の一定時間内にある無音部とすることもできる。 In the above embodiment of the present invention, the division of the audio data is performed in the silent part within a predetermined time before the division position, when the division position becomes the talk part. However, the present invention is not limited to this, and it may be a silent part within a fixed time after the break position.
また、音声データの音量調整は、分割データの生成前でなくてもよく、分割データの生成時や、圧縮データの生成時に行ってもよい。 Further, the volume adjustment of the audio data may not be performed before the generation of the divided data, and may be performed at the time of generation of the divided data or at the time of generation of the compressed data.
1 音声テキスト化装置
11 音量調整部
12 分割処理部
13 圧縮処理部
14 識別発行部
15 結合処理部
16 通信処理部
1A 識別情報記憶部
2 音声テキスト化エンジン
3 ユーザ端末
4 ユーザ端末
41 音声テキスト化処理部
42 入出力処理部
43 通信処理部
NW ネットワーク
DESCRIPTION OF
Claims (7)
上記音声データをテキスト化する音声テキスト化エンジンと、ネットワークを介して通信可能に構成され、
上記音声データを所定の単位時間で分割して分割データを生成する分割処理手段と、
上記分割データから無音部を削除した圧縮データを生成する圧縮処理手段と、
上記音声テキスト化エンジンに対し、上記圧縮データを送信する圧縮データ送信手段と、
上記音声テキスト化エンジンから、上記圧縮データをテキスト化させた結合前テキストデータを受信する結合前テキストデータ受信手段と、
上記結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する結合処理手段と、を有する、
ことを特徴とする音声テキスト化装置。 A device for converting voice data into text,
A speech-to-text engine for converting the speech data into text, and communicable via a network,
Division processing means for dividing the audio data by a predetermined unit time to generate divided data;
Compression processing means for generating compressed data obtained by deleting silent parts from the divided data;
Compressed data transmitting means for transmitting the compressed data to the voice to text engine;
Pre-combination text data receiving means for receiving pre-combination text data obtained by converting the compressed data into text form from the speech-to-text engine;
Combining processing means for generating post-join text data by joining the pre-join text data in a pre-division order;
An audio-to-text device characterized in that.
請求項1記載の音声テキスト化装置。 The dividing means divides the voice data by the silent portion to generate divided data when the break position at a predetermined unit time from the start position of the voice data is a silent portion, and starts the voice data. When the demarcation position for each predetermined unit time from the position is a talkative part, the voice data is divided by a silent part within a predetermined time before the talkable part to generate divided data.
A speech to text apparatus according to claim 1.
上記分割手段は、所定の音量に調整された音声データを所定の単位時間で分割して分割データを生成する、
請求項1又は2記載の音声テキスト化装置。 The apparatus further comprises volume adjustment means for adjusting the volume of the audio data to a predetermined volume,
The dividing unit divides the audio data adjusted to a predetermined volume at a predetermined unit time to generate divided data.
An apparatus according to claim 1 or 2.
上記結合処理手段は、上記識別情報に基づき、上記結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する、
請求項1乃至3いずれかの項に記載の音声テキスト化装置。 Identification information issuing means for issuing identification information to the compressed data;
The combination processing means generates combined text data by combining the pre-combination text data in the order before division based on the identification information.
The speech-to-text device according to any one of claims 1 to 3.
上記ユーザ端末から、上記音声データを受信する音声データ受信手段と、
上記ユーザ端末に対し、上記結合後テキストデータを送信する結合後テキストデータ送信手段と、をさらに有する、
請求項1乃至4いずれかの項に記載の音声テキスト化装置。 It is configured to be communicable with the user terminal used by the user via the network.
Voice data receiving means for receiving the voice data from the user terminal;
The combined text data transmitting means for transmitting the combined text data to the user terminal;
An apparatus for converting text to speech according to any one of claims 1 to 4.
上記音声データをテキスト化する音声テキスト化エンジンと、ネットワークを介して通信可能に構成されたコンピュータにより、
上記音声データを所定の単位時間で分割して分割データを生成する分割処理と、
上記分割データから無音部を削除した圧縮データを生成する圧縮処理と、
上記音声テキスト化エンジンに対し、上記圧縮データを送信する圧縮データ送信処理と、
上記音声テキスト化エンジンから、上記圧縮データをテキスト化させた結合前テキストデータを受信する結合前テキストデータ受信処理と、
上記結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する結合処理と、を実行する、
ことを特徴とする音声テキスト化方法。 A method for converting voice data into text,
A speech-to-text engine for converting the speech data into text and a computer configured to be communicable via a network,
A division process of dividing the audio data by a predetermined unit time to generate divided data;
Compression processing for generating compressed data in which silent parts are removed from the divided data;
Compressed data transmission processing for transmitting the compressed data to the voice-to-text engine;
A pre-combination text data reception process for receiving pre-combination text data obtained by converting the compressed data into text data from the speech-to-text engine;
Performing a combining process of combining the pre-combination text data in a pre-division order to generate post-combination text data;
An audio text conversion method characterized by
上記音声データをテキスト化する音声テキスト化エンジンと、ネットワークを介して通信可能に構成されたコンピュータに対し、
上記音声データを所定の単位時間で分割して分割データを生成する分割処理と、
上記分割データから無音部を削除した圧縮データを生成する圧縮処理と、
上記音声テキスト化エンジンに対し、上記圧縮データを送信する圧縮データ送信処理と、
上記音声テキスト化エンジンから、上記圧縮データをテキスト化させた結合前テキストデータを受信する結合前テキストデータ受信処理と、
上記結合前テキストデータを分割前の順序で結合した結合後テキストデータを生成する結合処理と、を実行させる、
コンピュータプログラム。 A computer program for converting voice data into text,
A voice-to-text engine for converting the voice data into text, and a computer configured to be able to communicate via a network,
A division process of dividing the audio data by a predetermined unit time to generate divided data;
Compression processing for generating compressed data in which silent parts are removed from the divided data;
Compressed data transmission processing for transmitting the compressed data to the voice-to-text engine;
A pre-combination text data reception process for receiving pre-combination text data obtained by converting the compressed data into text data from the speech-to-text engine;
Performing a combining process of combining the text data before combining in the order before splitting to generate text data after combining;
Computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017219292A JP2019090917A (en) | 2017-11-14 | 2017-11-14 | Voice-to-text conversion device, method and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017219292A JP2019090917A (en) | 2017-11-14 | 2017-11-14 | Voice-to-text conversion device, method and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019090917A true JP2019090917A (en) | 2019-06-13 |
Family
ID=66836429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017219292A Pending JP2019090917A (en) | 2017-11-14 | 2017-11-14 | Voice-to-text conversion device, method and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019090917A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102216524B1 (en) * | 2020-04-17 | 2021-02-16 | 이준규 | Method, apparatus and computer-readable medium of providing recorded file through data structure |
JP7509008B2 (en) | 2020-11-17 | 2024-07-02 | トヨタ自動車株式会社 | Information processing system, information processing method, and program |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134276A (en) * | 1999-11-02 | 2001-05-18 | Nippon Hoso Kyokai <Nhk> | Speech to character conversion error detecting device and recording medium |
JP2007114297A (en) * | 2005-10-18 | 2007-05-10 | Canon Inc | Image forming apparatus with speech recognition means |
JP2008107624A (en) * | 2006-10-26 | 2008-05-08 | Kddi Corp | Transcription system |
JP2013020220A (en) * | 2011-07-13 | 2013-01-31 | Highware Co Ltd | Voice recognition device, automatic response method and automatic response |
JP2015007595A (en) * | 2013-06-26 | 2015-01-15 | 富士通テン株式会社 | Device for vehicle, communication system, communication method, and program |
WO2016129188A1 (en) * | 2015-02-10 | 2016-08-18 | Necソリューションイノベータ株式会社 | Speech recognition processing device, speech recognition processing method, and program |
-
2017
- 2017-11-14 JP JP2017219292A patent/JP2019090917A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001134276A (en) * | 1999-11-02 | 2001-05-18 | Nippon Hoso Kyokai <Nhk> | Speech to character conversion error detecting device and recording medium |
JP2007114297A (en) * | 2005-10-18 | 2007-05-10 | Canon Inc | Image forming apparatus with speech recognition means |
JP2008107624A (en) * | 2006-10-26 | 2008-05-08 | Kddi Corp | Transcription system |
JP2013020220A (en) * | 2011-07-13 | 2013-01-31 | Highware Co Ltd | Voice recognition device, automatic response method and automatic response |
JP2015007595A (en) * | 2013-06-26 | 2015-01-15 | 富士通テン株式会社 | Device for vehicle, communication system, communication method, and program |
WO2016129188A1 (en) * | 2015-02-10 | 2016-08-18 | Necソリューションイノベータ株式会社 | Speech recognition processing device, speech recognition processing method, and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102216524B1 (en) * | 2020-04-17 | 2021-02-16 | 이준규 | Method, apparatus and computer-readable medium of providing recorded file through data structure |
JP7509008B2 (en) | 2020-11-17 | 2024-07-02 | トヨタ自動車株式会社 | Information processing system, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3084633B1 (en) | Attribute-based audio channel arbitration | |
JP4271224B2 (en) | Speech translation apparatus, speech translation method, speech translation program and system | |
KR101027548B1 (en) | Voice browser dialog enabler for a communication system | |
JP5545467B2 (en) | Speech translation system, control device, and information processing method | |
EP2538404B1 (en) | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system | |
US20090198497A1 (en) | Method and apparatus for speech synthesis of text message | |
CN102292766A (en) | Method, apparatus and computer program product for providing compound models for speech recognition adaptation | |
KR20140112364A (en) | Display apparatus and control method thereof | |
EP1471499B1 (en) | Method of distributed speech synthesis | |
US20210249007A1 (en) | Conversation assistance device, conversation assistance method, and program | |
JP2019090917A (en) | Voice-to-text conversion device, method and computer program | |
KR20240046508A (en) | Decision and visual display of voice menu for calls | |
US10002611B1 (en) | Asynchronous audio messaging | |
WO2020046435A1 (en) | Transcription presentation | |
WO2018198791A1 (en) | Signal processing device, method, and program | |
CN111564156B (en) | Outbound system deployment method, outbound system deployment device, computer equipment and storage medium | |
KR100380829B1 (en) | System and method for managing conversation -type interface with agent and media for storing program source thereof | |
CN111639167B (en) | Task dialogue method and device | |
CN111754974B (en) | Information processing method, device, equipment and computer storage medium | |
JP2022176415A (en) | Information processing device and program | |
KR20060122092A (en) | Communication terminal of providing voice/text conversion service and operating method of the terminal, and server for proving voice/text conversion service by interoperating with the terminal | |
JP2020072367A (en) | Information processing system and transcription method | |
JP2020024522A (en) | Information providing apparatus, information providing method and program | |
US20170185587A1 (en) | Machine translation method and machine translation system | |
KR102359228B1 (en) | Method for customized conversation connection service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210903 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220302 |