JP2017203953A - Data processing device, data processing system, data processing method and data processing program - Google Patents

Data processing device, data processing system, data processing method and data processing program Download PDF

Info

Publication number
JP2017203953A
JP2017203953A JP2016097117A JP2016097117A JP2017203953A JP 2017203953 A JP2017203953 A JP 2017203953A JP 2016097117 A JP2016097117 A JP 2016097117A JP 2016097117 A JP2016097117 A JP 2016097117A JP 2017203953 A JP2017203953 A JP 2017203953A
Authority
JP
Japan
Prior art keywords
data
replacement
unit
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016097117A
Other languages
Japanese (ja)
Other versions
JP6731609B2 (en
Inventor
昭年 泉
Akitoshi Izumi
昭年 泉
亮太 藤井
Ryota Fujii
亮太 藤井
久裕 田中
Hisahiro Tanaka
久裕 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2016097117A priority Critical patent/JP6731609B2/en
Publication of JP2017203953A publication Critical patent/JP2017203953A/en
Application granted granted Critical
Publication of JP6731609B2 publication Critical patent/JP6731609B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To reduce the possibility of confidential information leaking to the outside when uttered speech data is transmitted to a speech recognition server and also recognize the speech and turn it into text with sufficient accuracy, as well as reduce the load of a speech recognition and text conversion process performed by an internal information processing terminal and secure a processing speed.SOLUTION: A data processing device 1 comprises: a speech data replacement unit 26 for replacing specific part speech data included in acquired speech data with replacement part speech data different from the specific part speech data, and outputting it as speech data for conversion; a communication unit 30 for transmitting the speech data for conversion to a speech recognition server, and receiving text data converted from the speech data for conversion from the speech recognition server; and a text data reverse replacement unit 31 for extracting post-replacement text data, among the text data inputted from the speech recognition server, that corresponds to the replacement part speech data, and replacing the post-replacement speech data with pre-replacement text data that corresponds to the specific part speech data and outputting the resulting speech data.SELECTED DRAWING: Figure 2

Description

本発明は、音声データをテキスト化するデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムに関する。   The present invention relates to a data processing apparatus, a data processing system, a data processing method, and a data processing program for converting audio data into text.

企業等の組織において、会議での話者の発言内容が記載される議事録を作成する場合、通常は書記を1名もしくは複数名割り当て、書記が聞いた内容を手動でテキスト化する方法がとられている。しかし、この方法ではコストがかかる、正確性に欠けるという問題から、音声認識装置を用い、自動で議事録を作成するシステムが提案されている(特許文献1参照)。この技術では、音声認識処理を各会議参加者が所有する情報処理端末で実施する。   In organizations such as corporations, when creating minutes of meetings, the contents of the speaker's statements are usually assigned by assigning one or more clerks and manually transcribing the contents heard by the clerk. It has been. However, due to the problem that this method is costly and lacks accuracy, a system has been proposed in which a minutes is automatically created using a speech recognition device (see Patent Document 1). In this technology, voice recognition processing is performed at an information processing terminal owned by each conference participant.

特開平11−272663号公報JP 11-272663 A

ところで、会議議事録等の話し言葉全体を十分な精度で音声認識・テキスト化するためには外部サーバ等の高い計算能力並びにそこに格納される十分に蓄積された学習データが必要である。したがって、会議議事録を十分な精度で音声認識・テキスト化するためには、外部サーバに会議参加者の発話音声データを送信し、音声認識・テキスト化する必要がある。しかしながら、発話内容に機密情報が含まれる場合、外部の音声認識サーバに発話音声データを送信すると機密情報が外部に漏洩する可能性がある。   By the way, in order to recognize and text the entire spoken language such as the minutes of a meeting with sufficient accuracy, high calculation capability such as an external server and sufficiently accumulated learning data stored therein are required. Therefore, in order to speech-recognize and text conference minutes with sufficient accuracy, it is necessary to transmit speech data of conference participants to an external server for speech recognition and text. However, when confidential information is included in the utterance content, there is a possibility that confidential information may be leaked to the outside if the utterance voice data is transmitted to an external voice recognition server.

本発明の目的は、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することが可能であり、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷の軽減と、処理スピードの確保をすることが可能なデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムを提供することである。   An object of the present invention is to reduce the possibility of leakage of confidential information to the outside when transmitting utterance voice data to a voice recognition server, and to enable voice recognition / text conversion with sufficient accuracy. It is to provide a data processing device, a data processing system, a data processing method, and a data processing program capable of reducing the processing load of voice recognition and text processing performed by the information processing terminal and ensuring the processing speed. .

本開示のデータ処理装置は、
収音音声データの認識結果を出力するデータ処理装置であって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備える。
The data processing apparatus of the present disclosure
A data processing device that outputs a recognition result of collected sound data,
An audio data replacement unit that replaces the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputs the converted audio data;
A communication unit that transmits the voice data for conversion to a voice recognition server and receives text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement unit that outputs as a recognition result of the collected sound data;
Is provided.

本開示のデータ処理システムは、
収音音声データの認識結果を出力するデータ処理システムであって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備える。
The data processing system of the present disclosure includes:
A data processing system that outputs a recognition result of collected sound data,
An audio data replacement unit that replaces the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputs the converted audio data;
A communication unit that transmits the voice data for conversion to a voice recognition server and receives text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement unit that outputs as a recognition result of the collected sound data;
Is provided.

本開示のデータ処理方法は、
収音音声データの認識結果を出力するデータ処理方法であって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換ステップと、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信ステップと、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換ステップと、
を備える。
The data processing method of the present disclosure includes:
A data processing method for outputting a recognition result of collected sound data,
A voice data replacement step of replacing the specific part voice data included in the collected voice data with replacement voice data different from the specific part voice data and outputting the voice data for conversion;
A communication step of transmitting the voice data for conversion to a voice recognition server and receiving text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement step for outputting the collected sound data as a recognition result;
Is provided.

本開示のデータ処理プログラムは、
収音音声データの認識結果を出力するデータ処理装置において実行されるデータ処理プログラムであって、
前記データ処理装置のコンピュータに対して、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力させる処理と、
前記変換用音声データを音声認識サーバへ送信させ、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信させる処理と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出させ、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力させる処理と、
を実行させる。
The data processing program of the present disclosure
A data processing program executed in a data processing device that outputs a recognition result of collected sound data,
For the computer of the data processing device,
A process of replacing the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputting the converted audio data as conversion audio data;
Processing for transmitting the voice data for conversion to a voice recognition server and receiving text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, the post-replacement text data corresponding to the replacement unit speech data is extracted, and the post-replacement text data is replaced with the pre-replacement text data corresponding to the specific unit speech data. Processing to output the collected sound data as a recognition result;
Is executed.

本発明によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、本開示は、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。   According to the present invention, it is possible to reduce the possibility of leakage of confidential information to the outside when transmitting utterance voice data to the voice recognition server, and to perform voice recognition / text conversion with sufficient accuracy. In addition, the present disclosure can reduce the load of speech recognition / text processing performed by the internal information processing terminal, and can ensure the processing speed.

本第1実施形態の音声処理システムが設置された場所のイメージの一例を示す図The figure which shows an example of the image of the place where the audio | voice processing system of this 1st Embodiment was installed 本第1実施形態の音声処理システムのシステム構成を示すブロック図The block diagram which shows the system configuration | structure of the speech processing system of this 1st Embodiment. 本第1実施形態の音声処理システムの音声データ置換に関する動作手順を説明するフローチャートThe flowchart explaining the operation | movement procedure regarding the audio | voice data replacement of the audio | voice processing system of this 1st Embodiment. 本第1実施形態の音声処理システムの音声認識サーバに関する動作手順の一例を説明するフローチャートThe flowchart explaining an example of the operation | movement procedure regarding the speech recognition server of the speech processing system of this 1st Embodiment. 本第1実施形態の音声処理システムのテキストデータ逆置換に関する動作手順を示すフローチャートThe flowchart which shows the operation | movement procedure regarding the text data reverse substitution of the speech processing system of this 1st Embodiment. 本第1実施形態において音声入力処理部が実施する音声入力処理の例を示す図The figure which shows the example of the audio | voice input process which the audio | voice input process part implements in this 1st Embodiment. 本第1実施形態において発話区間検出部が実施する発話区間検出処理の例を示す図The figure which shows the example of the speech area detection process which the speech area detection part implements in this 1st Embodiment. 本第1実施形態における組み合わせ表の例を示す図The figure which shows the example of the combination table | surface in this 1st Embodiment. 本第1実施形態における特定音声データ検出処理の処理例を示す図The figure which shows the process example of the specific audio | voice data detection process in this 1st Embodiment. 本第1実施形態における特定情報発話時刻表の例を示す図The figure which shows the example of the specific information utterance timetable in this 1st Embodiment 本第1実施形態における置換音声データ表の例と置換音声合成処理の処理例を示す図The figure which shows the example of the substituted audio | voice data table in this 1st Embodiment, and the process example of a substituted audio | voice synthesis process 本第1実施形態における音声データシフト処理の処理例を示す図The figure which shows the process example of the audio | voice data shift process in this 1st Embodiment. 本第1実施形態における音声データ置換処理の処理例を示す図The figure which shows the process example of the audio | voice data replacement process in this 1st Embodiment. 本第1実施形態における置換履歴表の例を示す図The figure which shows the example of the replacement history table | surface in this 1st Embodiment. 本第1実施形態における変換用音声データ送信処理と変換用音声データ受信処理と音声データ変換処理とテキストデータ送信処理の処理例を示す図The figure which shows the process example of the audio | voice data transmission process for a conversion in this 1st Embodiment, the audio | voice data reception process for a conversion, an audio | voice data conversion process, and a text data transmission process. 本第1実施形態におけるテキストデータ逆置換処理と認識結果出力処理の処理例を示す図The figure which shows the process example of the text data reverse substitution process in this 1st Embodiment, and a recognition result output process 本第2実施形態における置換音声データ表と置換音声合成処理の例を示す図The figure which shows the example of the substituted audio | voice data table in this 2nd Embodiment, and a substituted audio | voice synthesis process. 本第2実施形態における音声データシフト処理の処理例を示す図The figure which shows the process example of the audio | voice data shift process in this 2nd Embodiment. 本第2実施形態における音声データ置換処理の処理例を示す図The figure which shows the process example of the audio | voice data replacement process in this 2nd Embodiment. 本第3実施形態における置換音声データ表と置換音声合成処理の例を示す図The figure which shows the example of the substituted audio | voice data table and the substituted audio | voice synthetic | combination process in this 3rd Embodiment. 本第3実施形態における音声データシフト処理の処理例を示す図The figure which shows the process example of the audio | voice data shift process in this 3rd Embodiment. 本第3実施形態における音声データ置換処理の処理例を示す図The figure which shows the process example of the audio | voice data replacement process in this 3rd Embodiment.

以下、本発明に係る音声処理システムを具体的に示した実施形態(以下、「本実施形態」という)について、図面を参照して説明する。   Hereinafter, an embodiment (hereinafter referred to as “the present embodiment”) that specifically shows a speech processing system according to the present invention will be described with reference to the drawings.

(第1実施形態)
図1は、本第1実施形態の音声処理システムが設置された場所のイメージの一例を示す図である。図2は、本第1実施形態の音声処理システム1のシステム構成を示すブロック図である。図3は、本第1実施形態の音声処理システム1の音声データ置換に関する動作手順を説明するフローチャートである。図4は、本第1実施形態の音声処理システム1の音声認識サーバ10に関する動作手順の一例を説明するフローチャートである。図5は、音声処理システム1のテキストデータ逆置換に関する動作手順を示すフローチャートである。
(First embodiment)
FIG. 1 is a diagram illustrating an example of an image of a place where the voice processing system according to the first embodiment is installed. FIG. 2 is a block diagram showing a system configuration of the voice processing system 1 according to the first embodiment. FIG. 3 is a flowchart for explaining an operation procedure related to voice data replacement in the voice processing system 1 of the first embodiment. FIG. 4 is a flowchart illustrating an example of an operation procedure related to the speech recognition server 10 of the speech processing system 1 according to the first embodiment. FIG. 5 is a flowchart showing an operation procedure related to reverse text data replacement in the speech processing system 1.

図1〜図5に示す音声処理システム1は、音声認識が行われる場所2(例えば会議室、銀行カウンター、事務所)に設置された、音声入力処理部3(無指向性マイク、指向性マイク、ヘッドセットなど)を介して発話者が発話する音声を収音し、認識結果を表示部4に出力する。2人の会議参加者の内、1人が音声認識発話者5となり、音声入力処理部3が音声認識発話者5の発話音声6を収音している。発話音声6は、データ処理装置7によって変換用音声データ8に置換され、ネットワーク9を介して音声認識サーバ10に送信される。ネットワーク9は、有線ネットワーク(例えばイントラネット、インターネット)でも良いし、無線ネットワーク(例えば無線LAN(Local Area Network))でも良い。音声認識サーバ10は変換用音声データ8に対応するテキストデータ11をデータ処理装置7に送信する。データ処理装置7は、音声認識サーバ10より受信したテキストデータ11を、発話音声6に対応するテキストデータに逆置換して、その逆置換したテキストデータを、発話音声6の認識結果として表示部4に出力する。更に、データ処理装置7には、操作を行う操作部12が設置されてもよい。   The speech processing system 1 shown in FIGS. 1 to 5 is a speech input processing unit 3 (an omnidirectional microphone, a directional microphone) installed in a place 2 (for example, a conference room, a bank counter, or an office) where speech recognition is performed. , A headset, etc.) is picked up and the recognition result is output to the display unit 4. Of the two conference participants, one becomes the voice recognition speaker 5, and the voice input processing unit 3 collects the voice 6 of the voice recognition speaker 5. The utterance voice 6 is replaced by the conversion voice data 8 by the data processing device 7 and transmitted to the voice recognition server 10 via the network 9. The network 9 may be a wired network (for example, an intranet or the Internet), or may be a wireless network (for example, a wireless local area network (LAN)). The speech recognition server 10 transmits text data 11 corresponding to the conversion speech data 8 to the data processing device 7. The data processing device 7 reversely replaces the text data 11 received from the speech recognition server 10 with text data corresponding to the uttered speech 6, and displays the reversely replaced text data as a recognition result of the uttered speech 6. Output to. Further, the data processing device 7 may be provided with an operation unit 12 for performing an operation.

音声入力処理部3は、音声認識発話者5が発話した発話音声6を収音し、収音音声データ13として発話区間検出部14に出力する(音声入力処理S1)。   The voice input processing unit 3 picks up the uttered voice 6 uttered by the voice recognition speaker 5 and outputs it as the collected voice data 13 to the utterance section detecting unit 14 (voice input processing S1).

発話区間検出部14は、入力された収音音声データ13から音声認識発話者5の発話区間前後の雑音部分を取り除いた、発話区間音声データ15を特定音声データ検出部16に出力する(発話区間検出処理S2)。   The utterance section detection unit 14 outputs the utterance section voice data 15 obtained by removing the noise portion before and after the utterance section of the voice recognition speaker 5 from the input collected voice data 13 to the specific voice data detection unit 16 (speaking section). Detection process S2).

特定音声データ検出部16は、入力された発話区間音声データ15と、組み合わせ記憶部18に記憶されている組み合わせ表19とを基に、発話された特定部音声データ20を生成し、発話時刻検出部17に出力する(特定音声データ検出処理S3)。発話時刻検出部17は、特定部音声データ20の発話開始時刻と、発話終了時刻とが記載された、特定情報発話時刻表21を生成し置換音声合成部22に出力する。(発話時刻検出処理S4)。   The specific voice data detection unit 16 generates uttered specific part voice data 20 based on the input utterance section voice data 15 and the combination table 19 stored in the combination storage unit 18 to detect the utterance time. It outputs to the part 17 (specific audio | voice data detection process S3). The utterance time detection unit 17 generates a specific information utterance time table 21 in which the utterance start time and the utterance end time of the specific unit audio data 20 are described, and outputs the specific information utterance time table 21 to the replacement voice synthesis unit 22. (Speech time detection process S4).

置換音声合成部22は、入力された特定情報発話時刻表21を基に、置換部音声データ23を含む置換音声データ表24を生成し音声データシフト部25に出力する(置換音声合成処理S5)。   The replacement speech synthesizer 22 generates a replacement speech data table 24 including the replacement portion speech data 23 based on the input specific information utterance time table 21 and outputs it to the speech data shift portion 25 (replacement speech synthesis processing S5). .

音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24とを基に、シフト発話区間音声データ27を生成し音声データ置換部26に出力する(音声データシフト処理S6)。音声データシフト処理S6により、置換後の音声データを含む変換用音声データ8が置換前と同様に自然な形で生成されるので、音声認識・テキスト化の精度を確保することができる。   The voice data shift unit 25 generates the shift utterance section voice data 27 based on the input utterance section voice data 15 and the replacement voice data table 24, and outputs it to the voice data substitution section 26 (voice data shift processing S6). . By the voice data shift process S6, the conversion voice data 8 including the voice data after the replacement is generated in a natural manner as before the replacement, so that the accuracy of voice recognition / text conversion can be ensured.

音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に生成した置換履歴表28を置換履歴記憶部29に記憶し、変換用音声データ8を通信部30に出力する(音声データ置換処理S7)。置換履歴記憶部29を備えることにより、テキストデータから置換前テキストデータを作成する際の処理が容易になる。   The voice data replacement unit 26 stores a replacement history table 28 generated based on the input shift utterance interval voice data 27 and the replacement voice data table 24 in the replacement history storage unit 29, and converts the conversion voice data 8 into the communication unit. 30 (audio data replacement processing S7). Providing the replacement history storage unit 29 facilitates processing when creating pre-replacement text data from text data.

通信部30は、入力された変換用音声データ8を、ネットワーク9を介して、音声認識サーバ10に送信する(変換用音声データ送信処理S8)。   The communication unit 30 transmits the input conversion voice data 8 to the voice recognition server 10 via the network 9 (conversion voice data transmission process S8).

音声認識サーバ10は、ネットワーク9を介して変換用音声データ8を受信し(変換用音声データ受信処理S11)、受信した変換用音声データ8をテキストデータ11に変換し(音声データ変換処理S12)、変換したテキストデータ11を、ネットワーク9に送信する(テキストデータ送信処理S13)。データ処理装置7の通信部30は、ネットワーク9を介して受信したテキストデータ11を、テキストデータ逆置換部31に出力する(テキストデータ受信処理S21)。   The voice recognition server 10 receives the conversion voice data 8 via the network 9 (conversion voice data reception process S11), and converts the received conversion voice data 8 into text data 11 (voice data conversion process S12). The converted text data 11 is transmitted to the network 9 (text data transmission process S13). The communication unit 30 of the data processing device 7 outputs the text data 11 received via the network 9 to the text data reverse replacement unit 31 (text data reception processing S21).

テキストデータ逆置換部31は、入力されたテキストデータ11と、置換履歴記憶部29に記憶されている置換履歴表28とを基に、本来得られるべき認識結果を生成し(テキストデータ逆置換処理S22)、その認識結果を表示部4に出力する(認識結果出力処理S23)。なお、操作部12が備わっている場合は、ユーザは操作部12を介して組み合わせ記憶部18に記憶されている組み合わせ表19を編集することで、置き換えたい特定音声をテキストにより適宜指定し、置き換え後の言葉を容易に指定することができる。操作部12は例えば、マウスやキーボードなどである。   The text data reverse replacement unit 31 generates a recognition result to be originally obtained based on the input text data 11 and the replacement history table 28 stored in the replacement history storage unit 29 (text data reverse replacement processing). S22), the recognition result is output to the display unit 4 (recognition result output process S23). If the operation unit 12 is provided, the user edits the combination table 19 stored in the combination storage unit 18 via the operation unit 12 so that the specific voice to be replaced is appropriately designated by text and replaced. Later words can be specified easily. The operation unit 12 is, for example, a mouse or a keyboard.

図6は、本第1実施形態において音声入力処理部3が実施する音声入力処理S1の例である。音声入力処理部3は例えば、無指向性マイク、指向性マイク、ヘッドセットなどの収音可能な装置を備え、周囲の環境雑音音声や、音声認識発話者5の発話音声6を収音する。音声入力処理部3は、収音した音声をアナログ電気信号に変換し、更に前記アナログ電気信号をデジタル音声データに変換(パルス符号変調(PCM)など)し、収音音声データ13として出力する。   FIG. 6 is an example of the voice input process S1 performed by the voice input processing unit 3 in the first embodiment. For example, the voice input processing unit 3 includes a device capable of collecting sound such as an omnidirectional microphone, a directional microphone, and a headset, and collects ambient environmental noise sound and speech sound 6 of the speech recognition speaker 5. The voice input processing unit 3 converts the collected voice into an analog electric signal, further converts the analog electric signal into digital voice data (pulse code modulation (PCM) or the like), and outputs the collected voice data 13.

図7は、本第1実施形態において発話区間検出部14が実施する発話区間検出処理S2の例である。音声入力処理部3が出力した収音音声データ13は発話区間検出部14に入力される。音声認識発話者5が発話している時間帯前後の音声データには、環境雑音音声のみが含まれる。環境雑音音声部分は音声認識を行う必要がないため、発話区間検出部14は収音音声データ13の特徴(波形振幅、周波数帯域など)から収音音声データ13の内、音声認識発話者5が発話した区間の音声データを発話区間音声データ15として切り出し、それを出力する。   FIG. 7 is an example of the speech segment detection process S2 performed by the speech segment detection unit 14 in the first embodiment. The collected voice data 13 output from the voice input processing unit 3 is input to the utterance section detection unit 14. The voice data before and after the time zone in which the voice recognition speaker 5 is speaking includes only the environmental noise voice. Since it is not necessary to perform speech recognition for the environmental noise speech part, the speech segment detection unit 14 determines that the speech recognition speaker 5 of the collected speech data 13 is based on the characteristics (waveform amplitude, frequency band, etc.) of the collected speech data 13. The voice data of the uttered section is cut out as the utterance section voice data 15 and output.

図8は、本第1実施形態における組み合わせ表19の例を示す図である。組み合わせ表19は、組み合わせID列、置換前テキストデータ列および置換後テキストデータ列から構成される。組み合わせID列には、組み合わせを一意に識別するための識別番号が記載される。置換前テキストデータ列には、発話区間音声データ15内の特定部音声データ20を検出するために、特定音声データ検出部16が検出する短い語又はフレーズが記載される。置換後テキストデータ列には、置換音声合成部22が置換部音声データ23を生成するために参照する置換音声データ表24を作成するための情報が記載される。   FIG. 8 is a diagram illustrating an example of the combination table 19 in the first embodiment. The combination table 19 includes a combination ID column, a text data string before replacement, and a text data string after replacement. In the combination ID column, an identification number for uniquely identifying the combination is described. In the pre-replacement text data string, a short word or phrase detected by the specific voice data detection unit 16 in order to detect the specific part voice data 20 in the utterance section voice data 15 is described. In the post-replacement text data string, information for creating a replacement speech data table 24 that the replacement speech synthesizer 22 refers to in order to generate the replacement portion speech data 23 is described.

組み合わせ表19に記載される組み合わせすべてにおいて、置換前テキストデータ列と置換後テキストデータ列には、音声データ置換部26が収音音声データ13から変換用音声データ8を出力する場合に、変換用音声データ8内の文章の文脈が不自然にならないよう、記載する必要がある。例えば、「福岡支店」を「サウジアラビア支店」に置換した変換用音声データ8の文章は自然であるが、「福岡支店」を「1000支店」に置換した変換用音声データ8の文章は不自然である。変換用音声データ8の文脈が不自然な場合、音声認識サーバ10の処理にて一部の不自然な文脈が、音声認識サーバ10が出力するテキストデータ11全体に影響する可能性がある。   In all combinations described in the combination table 19, when the voice data replacing unit 26 outputs the converted voice data 8 from the collected voice data 13 in the pre-replacement text data string and the post-substitution text data string, for conversion It is necessary to describe so that the context of the sentence in the audio data 8 does not become unnatural. For example, the sentence of the conversion voice data 8 in which “Fukuoka branch” is replaced with “Saudi Arabia branch” is natural, but the sentence of the conversion voice data 8 in which “Fukuoka branch” is replaced with “1000 branch” is unnatural. is there. When the context of the conversion voice data 8 is unnatural, some unnatural context may affect the entire text data 11 output by the voice recognition server 10 in the processing of the voice recognition server 10.

例えば組み合わせ表19の置換前テキストデータ列に、「[福岡]支店」と記載され、置換後テキストデータ列に、「サウジアラビア」と記載されている場合、その記載は、「福岡支店」という発話に対応する特定部音声データ20を「サウジアラビア支店」という発話に対応する置換部音声データ23に置換する、ということを意味する。また、例えば置換前音声テキストデータ列に「売り上げは[*]円」と記載され、置換後テキストデータ列に、「ランダム値(1、10000)」と記載されている場合、その記載は、「売り上げは1億円」や「売り上げは5000万円」等の発話に対応する特定部音声データ20を「売り上げは1000円」等の発話に対応する置換部音声データ23に置換される、ということを意味する。ここで、「[*]」は任意の発話内容を意味し、「ランダム値(1、10000)」は1から10000までの間の整数がランダムに選択されることを意味する。   For example, if “[Fukuoka] branch” is described in the pre-replacement text data string of the combination table 19 and “Saudi Arabia” is described in the post-replacement text data string, the description is in the utterance “Fukuoka branch”. This means that the corresponding specific part voice data 20 is replaced with the replacement part voice data 23 corresponding to the utterance “Saudi Arabia branch”. For example, when “sales is [*] yen” in the speech text data string before replacement and “random value (1, 10000)” is described in the text data string after replacement, the description is “ The specific part voice data 20 corresponding to utterances such as “100 million yen in sales” or “50 million yen in sales” is replaced with replacement part voice data 23 corresponding to utterances such as “sales is 1000 yen”. Means. Here, “[*]” means arbitrary utterance content, and “random value (1, 10000)” means that an integer between 1 and 10000 is randomly selected.

図9は、本第1実施形態における特定音声データ検出処理S3の処理例を示す図である。特定音声データ検出処理S3では、特定部音声データ20を含む発話区間音声データ15と組み合わせ表19とが、特定音声データ検出部16および発話時刻検出部17に入力される。特定音声データ検出部16は、発話区間音声データ15から特定部音声データ20を検出する。発話時刻検出部17は、算出した発話開始時刻と発話終了時刻、組み合わせ表19の組み合わせID、置換前テキストデータおよび置換後テキストデータを含む特定情報発話時刻表21を出力する。   FIG. 9 is a diagram illustrating a processing example of the specific voice data detection processing S3 in the first embodiment. In the specific voice data detection process S <b> 3, the utterance section voice data 15 including the specific part voice data 20 and the combination table 19 are input to the specific voice data detection unit 16 and the utterance time detection unit 17. The specific voice data detection unit 16 detects the specific part voice data 20 from the speech segment voice data 15. The utterance time detection unit 17 outputs the specific information utterance time table 21 including the calculated utterance start time and utterance end time, the combination ID of the combination table 19, the text data before replacement, and the text data after replacement.

図10は、本第1実施形態における特定情報発話時刻表21の例を示す図である。
特定情報発話時刻表21は、組み合わせID列、置換前テキストデータ列、置換後テキストデータ列、発話開始時刻列および発話終了時刻列から構成される。
FIG. 10 is a diagram illustrating an example of the specific information utterance time table 21 in the first embodiment.
The specific information utterance time table 21 includes a combination ID string, a pre-replacement text data string, a post-replacement text data string, an utterance start time string, and an utterance end time string.

図10に示す特定情報発話時刻表21は、「2015年度の業績、福岡支店の売り上げは1億円という結果になった」という発話と対応する発話区間音声データ15を基に作成されたものである。特定情報発話時刻表21の組み合わせID「4」は、図8に示す組み合わせ表19の組み合わせID「4」に対応する。図10に示す特定情報発話時刻表21のID「4」が記載されている行の「置換前テキストデータ」列には、組み合わせ表19の置換前テキストデータ列に記載されている「[福岡]支店」の代わりに、その[ ]内に記載されている「福岡」のみが記載され、「置換後テキストデータ」列には「サウジアラビア」が記載される。そして、組み合わせID「4」が記載されている行の「発話開始時刻」および「発話終了時刻」の各列欄には、算出した「福岡」の発話開始時刻「2.0」と発話終了時刻「2.3」が、それぞれ記載される。このようにして、特定情報発話時刻表21のID「4」が記載されている行は生成される。   The specific information utterance timetable 21 shown in FIG. 10 is created on the basis of the utterance section voice data 15 corresponding to the utterance “The result of 2015, the sales of the Fukuoka branch resulted in 100 million yen”. is there. The combination ID “4” in the specific information utterance time table 21 corresponds to the combination ID “4” in the combination table 19 shown in FIG. In the “pre-replacement text data” column of the line in which the ID “4” of the specific information utterance time table 21 shown in FIG. 10 is described, “[Fukuoka]” described in the pre-replacement text data column of the combination table 19 is displayed. Instead of “branch”, only “Fukuoka” described in [] is described, and “Saudi Arabia” is described in the “Substitution text data” column. In the columns of “Speech start time” and “Speech end time” in the row where the combination ID “4” is written, the calculated “Fukuoka” utterance start time “2.0” and utterance end time are displayed. “2.3” is respectively described. In this way, a row in which the ID “4” of the specific information utterance time table 21 is described is generated.

組み合わせID「4」と同様に、図10に示す特定情報発話時刻表21の組み合わせID「1」は、図8に示す組み合わせ表19の組み合わせID「1」に対応する。図10に示す特定情報発話時刻表21のID「1」が記載されている行の「置換前テキストデータ」列には、組み合わせ表19の置換前テキストデータ列に記載されている「売り上げは[*]円」(ここでは*=1億と検知)の代わりに、その[ ]内で検知した「1億」のみが記載される。そして、図10に示す特定情報発話時刻表21の「置換後テキストデータ」列の欄には、組み合わせ表19の置換前テキストデータ列に記載されている「ランダム値(1、10000)」の代わりに、ランダム値として選ばれた「1000」が記載される。組み合わせID「1」が記載されている行の「発話開始時刻」および「発話終了時刻」の各列欄には、算出した「1億」の発話開始時刻「3.5」、発話終了時刻「3.7」が、それぞれ記載される。このようにして、特定情報発話時刻表21のID「1」が記載されている行は生成される。   Similar to the combination ID “4”, the combination ID “1” of the specific information utterance time table 21 shown in FIG. 10 corresponds to the combination ID “1” of the combination table 19 shown in FIG. In the “pre-replacement text data” column of the line in which the ID “1” of the specific information utterance time table 21 shown in FIG. 10 is described, “sales is [ Instead of “*] Yen” (* = 100 million detected here), only “100 million” detected within [] is described. Then, in the column of “post-replacement text data” column of the specific information utterance time table 21 shown in FIG. 10, instead of “random value (1, 10000)” described in the pre-replacement text data column of the combination table 19 “1000” selected as a random value is described. In the column of “speech start time” and “speech end time” in the row in which the combination ID “1” is described, the calculated “100 million” utterance start time “3.5”, utterance end time “ 3.7 "is described respectively. In this way, a row in which the ID “1” of the specific information utterance time table 21 is described is generated.

図11は、本第1実施形態における置換音声データ表24と置換音声合成処理S5の処理例を示す図である。置換音声合成部22は、入力された特定情報発話時刻表21を基に、置換音声データ表24を生成し、出力する。置換音声データ表24の生成については後ほど説明する。生成された置換音声データ表24は、「置換部ID」列、「置換部音声データ内容」列、「発話開始時刻」列、「発話終了時刻」列、「置換部音声データ長」列、「シフト量」列、「置換部音声データ」列から構成される。「置換部ID」列には、置換部音声データ23を一意に識別するための識別番号が記載される。「置換部音声データ内容」列には、置換部音声データ23の発話内容が記載される。「発話開始時刻」列には、置換部音声データ23をシフト発話区間音声データ27に置換する際の置換開始位置が記載される。「発話終了時刻」列には、置換部音声データ23をシフト発話区間音声データ27に置換する際の置換終了位置が記載される。「置換部音声データ長」列には、置換部音声データ23の発話長が記載される。「シフト量」列には、音声データシフト処理S6にて、音声データをどれだけシフトするかを示す数値が記載される。「置換部音声データ」列には置換部音声データ23が格納される。   FIG. 11 is a diagram illustrating a processing example of the replacement speech data table 24 and the replacement speech synthesis processing S5 in the first embodiment. The replacement speech synthesizer 22 generates and outputs a replacement speech data table 24 based on the input specific information utterance time table 21. The generation of the replacement voice data table 24 will be described later. The generated replacement voice data table 24 includes a “replacement unit ID” column, a “replacement unit voice data content” column, an “utterance start time” column, an “utterance end time” column, a “replacement unit voice data length” column, “ It consists of a “shift amount” column and a “replacement unit audio data” column. In the “replacement unit ID” column, an identification number for uniquely identifying the replacement unit audio data 23 is described. In the “replacement unit audio data content” column, the utterance content of the replacement unit audio data 23 is described. In the “speech start time” column, a replacement start position when replacing the replacement unit voice data 23 with the shift utterance section voice data 27 is described. The “speech end time” column describes the replacement end position when replacing the replacement unit voice data 23 with the shift utterance section voice data 27. In the “replacement unit audio data length” column, the utterance length of the replacement unit audio data 23 is described. In the “shift amount” column, a numerical value indicating how much the audio data is shifted in the audio data shift processing S6 is described. The replacement unit audio data 23 is stored in the “replacement unit audio data” column.

次に、置換音声データ表24の生成について、いくつかを例にとって説明する。
図11において、特定情報発話時刻表21が置換音声合成部22に入力されると、置換音声合成部22は、入力された特定情報発話時刻表21の1行目、すなわち、組み合わせID「4」行にある置換前テキストデータおよび置換後テキストデータに関する項目を、置換音声データ表24の1行目、すなわち、置換部ID「1」行にある各列に、それぞれ記載する。特定情報発話時刻表21の組み合わせID「4」行にある「置換後テキストデータ」列の「サウジアラビア」は、置換音声データ表24の置換部ID「1」行にある「置換部音声データ内容」列に記載される。特定情報発話時刻表21の組み合わせID「4」行の「発話開始時刻」列にある「2.0」は、置換音声データ表24の置換部ID「1」行にある「発話開始時刻」列に記載される。特定情報発話時刻表21の組み合わせID「4」行の「発話終了時刻」列にある「2.3」は、置換音声データ表24の置換部ID「1」行にある「発話終了時刻」列に記載される。置換部ID「1」行の「置換部音声データ」列には、「置換部音声データ内容」列に記載された「サウジアラビア」を、自然な話し速度で発話する音声の音データが、置換部音声データ23として格納される。そして、置換部ID「1」行の「置換部音声データ長」列には、その「サウジアラビア」の音データの長さである「0.5」が記入される。さらに、置換部ID「1」行の「シフト量」列には、所定の式、例えば置換部音声データ長−(発話終了時刻−発話開始時刻)から算出される値「0.2」が記入される。
Next, the generation of the replacement voice data table 24 will be described with some examples.
In FIG. 11, when the specific information utterance time table 21 is input to the replacement speech synthesizer 22, the replacement speech synthesizer 22 reads the first line of the input specific information utterance time table 21, that is, the combination ID “4”. Items relating to the pre-replacement text data and the post-replacement text data in the row are described in the first row of the replacement speech data table 24, that is, in each column in the replacement portion ID “1” row. “Saudi Arabia” in the “substitution text data” column in the combination ID “4” row of the specific information utterance time table 21 is “replacement portion voice data content” in the substitution portion ID “1” row of the substitution voice data table 24. Listed in the column. “2.0” in the “utterance start time” column of the combination ID “4” row of the specific information utterance time table 21 is the “utterance start time” column in the replacement part ID “1” row of the replacement voice data table 24. It is described in. “2.3” in the “utterance end time” column of the combination ID “4” row of the specific information utterance time table 21 is the “utterance end time” column in the replacement part ID “1” row of the replacement voice data table 24. It is described in. In the “replacement unit audio data” column of the replacement unit ID “1” row, the sound data of the speech uttering “Saudi Arabia” described in the “replacement unit audio data content” column at a natural speaking speed is displayed. Stored as audio data 23. Then, “0.5”, which is the length of the sound data of “Saudi Arabia”, is entered in the “replacement unit audio data length” column of the replacement unit ID “1” row. Further, in the “shift amount” column of the replacement unit ID “1” row, a predetermined formula, for example, a value “0.2” calculated from the replacement unit voice data length− (utterance end time−utterance start time) is entered. Is done.

1行目と同様に、置換音声合成部22は、入力された特定情報発話時刻表21の2行目、すなわち、組み合わせID「1」行にある置換前テキストデータおよび置換後テキストデータに関する項目を、置換音声データ表24の2行目、すなわち、置換部ID「2」行にある各列に、それぞれ記載する。特定情報発話時刻表21の組み合わせID「1」行にある「置換部テキストデータ」列の「1000」は、置換音声データ表24の置換部ID「2」行にある「置換部音声データ内容」列に記載される。ただし、置換音声データ表24の置換部ID「2」行にある「発話開始時刻」列には、特定情報発話時刻表21の組み合わせID「1」行の「発話開始時刻」列にある「3.5」に、置換部ID「1」行の「シフト量」列に記載された値「0.2」が加算された値「3.7」が記載される。これと同様に、置換音声データ表24の置換部ID「2」行にある「発話終了時刻」列には、特定情報発話時刻表21の組み合わせID「1」行の「発話終了時刻」列にある「3.7」に、置換部ID「1」行の「シフト量」列に記載された値「0.2」が加算された値「3.9」が記載される。置換部ID「2」行の「置換部音声データ」列には、「置換部音声データ内容」列に記載された「1000」を、自然な話し速度で発話する音声の音データが、置換部音声データ23として格納される。そして、置換部ID「2」行の「置換部音声データ長」列には、その「1000」の音データの長さである「0.1」が記入される。さらに、置換部ID「2」行の「シフト量」列には、所定の式、例えば置換部音声データ長−(発話終了時刻−発話開始時刻)から算出される値「−0.1」が記入される。   Similarly to the first line, the replacement speech synthesizer 22 selects items related to the pre-replacement text data and the post-replacement text data in the second line of the input specific information utterance time table 21, that is, the combination ID “1” line. Are described in the second row of the replacement voice data table 24, that is, in each column in the replacement portion ID “2” row. “1000” in the “replacement portion text data” column in the combination ID “1” row of the specific information utterance time table 21 is “replacement portion speech data content” in the replacement portion ID “2” row of the replacement speech data table 24. Listed in the column. However, the “utterance start time” column in the replacement part ID “2” row of the replacement voice data table 24 is “3” in the “utterance start time” column of the combination ID “1” row of the specific information utterance time table 21. .5 ”describes a value“ 3.7 ”obtained by adding the value“ 0.2 ”described in the“ shift amount ”column of the replacement unit ID“ 1 ”row. Similarly, in the “utterance end time” column in the replacement part ID “2” row of the replacement voice data table 24, the “utterance end time” column in the combination ID “1” row of the specific information utterance time table 21 is displayed. A value “3.9” obtained by adding the value “0.2” described in the “shift amount” column of the replacement unit ID “1” row is described in “3.7”. In the “replacement unit audio data” column of the replacement unit ID “2” row, the sound data of the speech that speaks “1000” described in the “replacement unit audio data content” column at a natural speaking speed is replaced with the replacement unit. Stored as audio data 23. Then, “0.1”, which is the length of the sound data of “1000”, is entered in the “replacement unit audio data length” column of the replacement unit ID “2” row. Further, in the “shift amount” column in the replacement unit ID “2” row, a value “−0.1” calculated from a predetermined formula, for example, replacement unit voice data length− (utterance end time−utterance start time) is set. Filled in.

図12は、本第1実施形態における音声データシフト処理S6の処理例を示す図である。音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24を基に、シフト発話区間音声データ27を生成し出力する。音声データシフト部25に入力された置換音声データ表24の1行目の発話終了時刻には「2.3」が記載され、シフト量列には「0.2」が記載されていることから、音声データシフト部25は、入力された発話区間音声データ15の2.3秒以降の音声データをすべて、正の方向に(すなわち後ろに)0.2秒シフトする。更に、音声データシフト部25に入力された置換音声データ表24の2行目の発話終了時刻には「3.9」が記載され、シフト量列には「−0.1」が記載されていることから、音声データシフト部25は入力された発話区間音声データ15の3.9秒以降の音声データをすべて、負の方向に(すなわち前に)0.1秒シフトする。こうして音声データシフト部25は、前記音声データシフト処理S6が終了した後の音声データを、シフト発話区間音声データ27として出力する。   FIG. 12 is a diagram illustrating a processing example of the audio data shift processing S6 in the first embodiment. The voice data shift unit 25 generates and outputs shift utterance section voice data 27 based on the input utterance section voice data 15 and the replacement voice data table 24. Since “2.3” is described in the utterance end time of the first row of the replacement voice data table 24 input to the voice data shift unit 25, “0.2” is described in the shift amount column. The voice data shift unit 25 shifts all the voice data after 2.3 seconds of the input speech section voice data 15 in the positive direction (that is, backward) by 0.2 seconds. Further, “3.9” is described in the utterance end time of the second row of the replacement audio data table 24 input to the audio data shift unit 25, and “−0.1” is described in the shift amount column. Therefore, the voice data shift unit 25 shifts all the voice data after 3.9 seconds of the input speech section voice data 15 in the negative direction (that is, before) by 0.1 seconds. In this way, the voice data shift unit 25 outputs the voice data after the voice data shift process S6 is completed as the shift utterance section voice data 27.

これにより置換後の音声データを含む交換用音声データ8が、置換前と同様に自然な形で生成されるので、音声認識・テキスト化の精度を確保することができる。   As a result, the replacement voice data 8 including the voice data after the replacement is generated in a natural manner as before the replacement, so that the accuracy of voice recognition / text conversion can be ensured.

図13は、本第1実施形態における音声データ置換処理S7の処理例を示す図である。音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に、置換履歴表28と変換用音声データ8を生成し、出力する。置換音声データ表第1行の発話開始時刻列には「2.0」が、置換部音声データ長列には「0.5」が記載されているため、シフト発話区間音声データ27の内、2.0秒から2.5秒の音声データを、置換音声データ表24の第1行の置換部音声データ列に格納されている置換部音声データ23の音声データに置換する。置換音声データ表24第2行についても同様の処理を行い、置換後の音声データを変換用音声データ8として出力する。   FIG. 13 is a diagram illustrating a processing example of the audio data replacement processing S7 in the first embodiment. The voice data replacement unit 26 generates and outputs a replacement history table 28 and conversion voice data 8 based on the input shift utterance section voice data 27 and the replacement voice data table 24. Since “2.0” is described in the utterance start time column of the first row of the replacement speech data table and “0.5” is described in the replacement portion speech data length column, the shift speech segment speech data 27 includes: The sound data of 2.0 seconds to 2.5 seconds is replaced with the sound data of the replacement unit sound data 23 stored in the replacement unit sound data string in the first row of the replacement sound data table 24. The same process is performed for the second row of the replacement voice data table 24, and the replaced voice data is output as the conversion voice data 8.

図14は、本第1実施形態における置換履歴表28の例を示す図である。置換履歴表28は「置換前」列と「置換後」列から構成される。例えば、置換履歴表28の第1行の「置換前」列に「福岡」が、「置換後」列に「サウジアラビア」が記載され、置換履歴表28の第2行の「置換前」列に「1億」が、「置換後」列に「1000」が記載されている場合、シフト発話区間音声データ27の「福岡」に対応する特定部音声データ20が「サウジアラビア」に対応する置換部音声データ23に置換され、シフト発話区間音声データの27「1億」に対応する特定部音声データ20が「1000」に対応する置換部音声データ23に置換された変換用音声データ8が生成されたことを意味する。   FIG. 14 is a diagram showing an example of the replacement history table 28 in the first embodiment. The replacement history table 28 includes “before replacement” columns and “after replacement” columns. For example, “Fukuoka” is described in the “before replacement” column of the first row of the replacement history table 28, “Saudi Arabia” is described in the “after replacement” column, and the “before replacement” column of the second row of the replacement history table 28 is displayed. When “100 million” is described in the “after replacement” column, “1000” is described, the replacement part voice corresponding to “Saudi Arabia” is the specific part voice data 20 corresponding to “Fukuoka” in the shift utterance section voice data 27. The conversion voice data 8 is generated in which the specific part voice data 20 corresponding to 27 “100 million” of the shift utterance section voice data is replaced with the replacement part voice data 23 corresponding to “1000”. Means that.

図15は、本第1実施形態における変換用音声データ送信処理S8と変換用音声データ受信処理S11と音声データ変換処理S12とテキストデータ送信処理S13の処理例を示す図である。図15において、通信部30は、入力された変換用音声データ8をデータ処理装置7の外部(例えば音声認識サーバ10)に送信する。変換用音声データ8を受信した音声認識サーバ10は、変換用音声データ8を対応するテキストデータ11に変換し、通信部30に出力する。例えば、「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」という変換用音声データ8が入力された場合、「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」という、変換されたテキストデータ11を通信部30に出力する。通信部30は、入力されたテキストデータ11をデータ処理装置7に送信する。通信部30と音声認識サーバ10の間の送受信経路として、Ethernet、USB、RC232(シリアル通信)などが挙げられる。   FIG. 15 is a diagram illustrating processing examples of the conversion voice data transmission process S8, the conversion voice data reception process S11, the voice data conversion process S12, and the text data transmission process S13 in the first embodiment. In FIG. 15, the communication unit 30 transmits the input conversion voice data 8 to the outside of the data processing device 7 (for example, the voice recognition server 10). Upon receiving the conversion voice data 8, the voice recognition server 10 converts the conversion voice data 8 into corresponding text data 11 and outputs it to the communication unit 30. For example, when the conversion voice data 8 is input, such as “results in 2015, sales of Saudi Arabia branch is 1000 yen”, “results in 2015, sales of Saudi Arabia branch is 1000 yen. The converted text data 11 is output to the communication unit 30. The communication unit 30 transmits the input text data 11 to the data processing device 7. Examples of the transmission / reception path between the communication unit 30 and the voice recognition server 10 include Ethernet, USB, RC232 (serial communication), and the like.

図16は、本第1実施形態におけるテキストデータ逆置換処理S22と認識結果出力処理S23の処理例を示す図である。テキストデータ逆置換部31は、入力されたテキストデータ11と置換履歴表28とを基に、本来得られるべき認識結果32を出力する。入力されたテキストデータ11が「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」であり、置換履歴表28の1行目の「置換前」列に「福岡」が、「置換後」列に「サウジアラビア」が、2行目の「置換前」列に「1億」が、「置換後」列に「1000」が記載されている場合、テキストデータ逆置換部31は、入力されたテキストデータ11に含まれる「サウジアラビア」を「福岡」に、「1000」を「1億」に逆置換し、「2015年度の業績、福岡支店の売り上げは1億円という結果になった」という、本来得られるべき認識結果32を生成し、表示部4に出力する。表示部4は例えば、ディスプレイ機器や、プリンタ機器などである。   FIG. 16 is a diagram illustrating a processing example of text data reverse replacement processing S22 and recognition result output processing S23 in the first embodiment. The text data reverse replacement unit 31 outputs a recognition result 32 to be originally obtained based on the input text data 11 and the replacement history table 28. The input text data 11 is “result of 2015, sales of Saudi Arabia branch was 1000 yen”, and “Fukuoka” in the “before replacement” column in the first row of the replacement history table 28 is “ When “Saudi Arabia” is described in the “After Replacement” column, “100 million” is described in the “Before Replacement” column of the second row, and “1000” is described in the “After Replacement” column, the text data reverse replacement unit 31 "Saudi Arabia" included in the text data 11 that was entered was replaced with "Fukuoka" and "1000" was reversely replaced with "100 million". "FY 2015 results, sales of the Fukuoka branch were 100 million yen. Is generated and output to the display unit 4. The display unit 4 is, for example, a display device or a printer device.

なお、ユーザは、操作部12を介して、組み合わせ表19の編集もしくは、新規作成を行うことで、使用状況に応じた組み合わせ表19を作成することができる。これによりユーザは、置き換えたい特定部音声データ20をテキストにより適宜指定し、置き換え後の言葉を容易に指定することができる。   Note that the user can create the combination table 19 according to the usage status by editing or newly creating the combination table 19 via the operation unit 12. As a result, the user can easily specify the specific part voice data 20 to be replaced by text and can easily specify the word after replacement.

以上のように、本第1実施形態によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。   As described above, according to the first embodiment, the possibility of leakage of confidential information to the outside when transmitting utterance voice data to the voice recognition server is reduced, and voice recognition / text conversion is performed with sufficient accuracy. can do. In addition, it is possible to reduce the load of voice recognition / text processing performed by the internal information processing terminal, and to secure the processing speed.

(第2実施形態)
本第2実施形態については、第1実施形態と異なる部分のみを説明する。それ以外の点については、第1実施形態と同様である。
(Second Embodiment)
Regarding the second embodiment, only the parts different from the first embodiment will be described. The other points are the same as in the first embodiment.

図17は、本第2実施形態における置換音声データ表24と置換音声合成処理S5の例を示す図である。図17において、本第2実施形態が第1実施形態と異なる点は、置換部音声データ長の算出方法と置換部音声データ23の音声データの生成方法である。置換音声合成部22は、入力された特定情報発話時刻表21を基に置換データ表を生成し出力するが、その際、第1実施形態の図11、図12とは異なり、置換音声データ表24の各行について、発話終了時刻から発話開始時刻を差し引いた値を、置換部音声データ長として記載する。具体的には、置換音声合成部22は、置換部ID「1」の行にある「置換部音声データ内容」列「サウジアラビア」の「発話終了時刻」列の値「2.3」から「発話開始時刻」列の値「2.0」を差し引いた値「0.3」を、置換部音声データ長列に格納する。そして、置換音声合成部22は、「0.3」秒間かけて「サウジアラビア」と発話される音声に対応する音声データを、置換部音声データ23として生成し、「置換部音声データ」列に格納する。置換音声データ表24の第2行についても、第1行と同様の処理を行う。   FIG. 17 is a diagram illustrating an example of the replacement speech data table 24 and the replacement speech synthesis process S5 in the second embodiment. In FIG. 17, the second embodiment is different from the first embodiment in a calculation method of the replacement unit audio data length and a generation method of the audio data of the replacement unit audio data 23. The replacement speech synthesizer 22 generates and outputs a replacement data table based on the input specific information utterance time table 21. At this time, unlike FIGS. 11 and 12 of the first embodiment, the replacement speech data table For each of the 24 lines, a value obtained by subtracting the utterance start time from the utterance end time is described as the replacement unit voice data length. Specifically, the replacement speech synthesizer 22 selects “speech” from the value “2.3” in the “speech end time” column of the “replacement unit speech data content” column “Saudi Arabia” in the row of the replacement unit ID “1”. The value “0.3” obtained by subtracting the value “2.0” in the “start time” column is stored in the replacement unit audio data length column. Then, the replacement speech synthesizer 22 generates speech data corresponding to the speech uttered “Saudi Arabia” over “0.3” seconds as replacement portion speech data 23 and stores it in the “replacement portion speech data” column. To do. For the second row of the replacement voice data table 24, the same processing as that for the first row is performed.

なお、本第2実施形態の「シフト量」列には、第1行、第2行とも、所定の式(置換部音声データ長−(発話終了時刻−発話開始時刻))から算出される値「0」が記入されるので、シフト処理が行われないこととなる。図18は、本第2実施形態における音声データシフト処理S6の処理例を示す図であり、図19は、本第2実施形態における音声データ置換処理S7の処理例を示す図である。図18、図19に示すように、「福岡」に代わる「サウジアラビア」、「1億」に代わる「1000」の置換部音声データ23が、それぞれ、「福岡」「1億」の各発話開始時刻、発話終了時刻を変えないよう、シフト処理を行わずに同じ長さで生成される。   In the “shift amount” column of the second embodiment, both the first row and the second row are values calculated from a predetermined formula (replacement unit voice data length− (utterance end time−utterance start time)). Since “0” is entered, the shift process is not performed. FIG. 18 is a diagram illustrating a processing example of the audio data shift processing S6 in the second embodiment, and FIG. 19 is a diagram illustrating a processing example of the audio data replacement processing S7 in the second embodiment. As shown in FIG. 18 and FIG. 19, “Saudi Arabia” replacing “Fukuoka” and “1000” replacing voice data 23 replacing “100 million” are respectively utterance start times of “Fukuoka” and “100 million”. In order not to change the utterance end time, they are generated with the same length without performing shift processing.

以上のように第2実施形態によれば、置き換えたい音声以外の部分の音声データに対する処理が不要となり、音声データの置換処理を簡略化することができる。   As described above, according to the second embodiment, it is not necessary to process a portion of audio data other than the audio to be replaced, and the audio data replacement processing can be simplified.

(第3実施形態)
本第3実施形態については、第1実施形態又は第2実施形態と異なる部分のみを説明する。それ以外の点については、第1実施形態又は第2実施形態と同様である。
(Third embodiment)
In the third embodiment, only the parts different from the first embodiment or the second embodiment will be described. About other points, it is the same as that of 1st Embodiment or 2nd Embodiment.

図20は、本第3実施形態における置換音声データ表24と置換音声合成処理S5の例を示す図である。図20は、第1実施形態及び第2実施形態での「福岡」を「サウジアラビア」に置き換える場合とは異なり、「福岡」を「タイ」に置き換える例である。置換音声合成部22は、入力された特定情報発話時刻表21を基に置換音声データ表24を生成し出力する点では、第1実施形態及び第2実施形態と同様である。そして、置換音声合成部22が、特定情報発話時刻表21の「置換前テキストデータ」列にある「福岡」の「発話開始時刻」列に記載されている値「2.0」及びその「発話終了時刻」列に記載されている値「2.3」を、それぞれ、置換音声データ表24の「発話開始時刻」列及び「発話終了時刻」列に、それぞれ記入する点についても、第1実施形態及び第2実施形態と同様である。   FIG. 20 is a diagram illustrating an example of the replacement speech data table 24 and the replacement speech synthesis process S5 in the third embodiment. FIG. 20 is an example in which “Fukuoka” is replaced with “Thailand”, unlike the case where “Fukuoka” is replaced with “Saudi Arabia” in the first and second embodiments. The replacement speech synthesizer 22 is similar to the first embodiment and the second embodiment in that a replacement speech data table 24 is generated and output based on the input specific information utterance time table 21. The replacement speech synthesizer 22 then sets the value “2.0” described in the “utterance start time” column of “Fukuoka” in the “text data before replacement” column of the specific information utterance time table 21 and the “utterance”. The first implementation is that the value “2.3” described in the “End time” column is entered in the “Speech start time” column and the “Speech end time” column of the replacement voice data table 24, respectively. It is the same as that of form and 2nd Embodiment.

ただし、本第3実施形態の置換音声合成部22は、第2実施の形態の図17、図18とは異なり、特定情報発話時刻表21の「組み合わせID」列「10」が記載されている1行目の「置換後テキストデータ」列にある記載項目「タイ」を、置換音声データ表24の「置換部ID」列「1」が記載されている1行目の「置換部音声データ内容」列に記入する。そして、本第3実施形態の置換音声合成部22は、「置換後テキストデータ」列にある記載項目「タイ」が自然な話し速度で発話される音声に対応する置換部音声データ23を生成して「置換部音声データ」列に格納し、その発話長さである値「0.1」を「置換部音声データ長」列に記入する。   However, the replacement speech synthesizer 22 of the third embodiment describes the “combination ID” column “10” of the specific information utterance time table 21, unlike FIGS. 17 and 18 of the second embodiment. The description item “tie” in the “replaced text data” column in the first row is replaced with the “replacement unit audio data content” in the first row in which the “replacement unit ID” column “1” in the replacement speech data table 24 is described. ”Column. Then, the replacement speech synthesizer 22 of the third embodiment generates replacement portion speech data 23 corresponding to speech in which the entry item “tie” in the “substitution text data” column is spoken at a natural speaking speed. Are stored in the “replacement section voice data length” column, and the value “0.1” as the speech length is entered in the “replacement section voice data length” column.

図21は、本第3実施形態における音声データシフト処理S6の処理例を示す図である。音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24とを基に、シフト発話区間音声データ27を生成し、出力する。置換音声データ表24の1行目の発話終了時刻には「2.3」が記載され、シフト量列には「0.0」が記載されていることから、音声データシフト部25は入力された発話区間音声データ15の2.3秒以降の音声データをすべて、正の方向に0.0秒シフトする。   FIG. 21 is a diagram illustrating a processing example of the audio data shift processing S6 in the third embodiment. The voice data shift unit 25 generates and outputs shift utterance section voice data 27 based on the input utterance section voice data 15 and the replacement voice data table 24. Since “2.3” is described in the utterance end time in the first row of the replacement voice data table 24 and “0.0” is described in the shift amount column, the voice data shift unit 25 is input. All the voice data after 2.3 seconds of the utterance section voice data 15 is shifted 0.0 seconds in the positive direction.

図22は、本第3実施形態における音声データ置換処理S7の処理例を示す図である。音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に、置換履歴表28と変換用音声データ8を生成し、出力する。置換音声データ表第1行の「発話終了時刻」列には「2.3」が、「置換部音声データ長」列には「0.1」が記載されているため、シフト発話区間音声データ27の内、2.0秒から2.2秒の音声データを、無音と対応する音声データに置換し、更に2.2秒から2.3秒の音声データを、置換音声データ表第1行の「置換部音声データ」列に格納される置換部音声データ23「タイ」に置換する。   FIG. 22 is a diagram illustrating a processing example of the audio data replacement processing S7 in the third embodiment. The voice data replacement unit 26 generates and outputs a replacement history table 28 and conversion voice data 8 based on the input shift utterance section voice data 27 and the replacement voice data table 24. Since “2.3” is described in the “speech end time” column and “0.1” is described in the “replacement unit speech data length” column of the first row of the replacement speech data table, the shift speech segment speech data 27, the voice data from 2.0 seconds to 2.2 seconds is replaced with the voice data corresponding to silence, and the voice data from 2.2 seconds to 2.3 seconds is further replaced with the first row of the replacement voice data table. In the “replacement unit audio data” column of “replacement unit audio data”.

以上のように本第3実施形態によれば、置き換えたい音声以外の部分の音声データに対する処理が不要となり、音声データの置換処理を簡略化することができる。   As described above, according to the third embodiment, processing for audio data other than the audio to be replaced becomes unnecessary, and the audio data replacement processing can be simplified.

以上に述べたように、本開示によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、本開示は、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。   As described above, according to the present disclosure, the possibility of leakage of confidential information to the outside when transmitting utterance voice data to the voice recognition server is reduced, and voice recognition / text conversion is performed with sufficient accuracy. be able to. In addition, the present disclosure can reduce the load of speech recognition / text processing performed by the internal information processing terminal, and can ensure the processing speed.

本開示は、音声データをテキスト化する際に、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができ、なおかつ、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができるデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムとして有用である。   The present disclosure reduces the possibility of leakage of confidential information to the outside when transmitting utterance voice data to the voice recognition server when voice data is converted into text, and performs voice recognition / text conversion with sufficient accuracy. Data processing apparatus, data processing system, data processing method, and data that can reduce the load of voice recognition / text processing performed by an internal information processing terminal and can ensure processing speed It is useful as a processing program.

1 音声処理システム
2 音声認識が行われる場所
3 音声入力処理部
4 表示部
5 音声認識発話者
6 発話音声
7 データ処理装置
8 変換用音声データ
9 ネットワーク
10 音声認識サーバ
11 テキストデータ
12 操作部
13 収音音声データ
14 発話区間検出部
15 発話区間音声データ
16 特定音声データ検出部
17 発話時刻検出部
18 組み合わせ記憶部
19 組み合わせ表
20 特定部音声データ
21 特定情報発話時刻表
22 置換音声合成部
23 置換部音声データ
24 置換音声データ表
25 音声データシフト部
26 音声データ置換部
27 シフト発話区間音声データ
28 置換履歴表
29 置換履歴記憶部
30 通信部
31 テキストデータ逆置換部
32 認識結果
DESCRIPTION OF SYMBOLS 1 Voice processing system 2 The place where voice recognition is performed 3 Voice input processing part 4 Display part 5 Voice recognition speaker 6 Speech voice 7 Data processing device 8 Voice data for conversion 9 Network 10 Voice recognition server 11 Text data 12 Operation part 13 Collection Audio voice data 14 Utterance section detection section 15 Utterance section audio data 16 Specific voice data detection section 17 Utterance time detection section 18 Combination storage section 19 Combination table 20 Specific section voice data 21 Specific information utterance time table 22 Replacement voice synthesis section 23 Replacement section Speech data 24 Replacement speech data table 25 Speech data shift unit 26 Speech data replacement unit 27 Shift utterance interval speech data 28 Replacement history table 29 Replacement history storage unit 30 Communication unit 31 Text data reverse replacement unit 32 Recognition result

Claims (20)

収音音声データの認識結果を出力するデータ処理装置であって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備えるデータ処理装置。
A data processing device that outputs a recognition result of collected sound data,
An audio data replacement unit that replaces the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputs the converted audio data;
A communication unit that transmits the voice data for conversion to a voice recognition server and receives text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement unit that outputs as a recognition result of the collected sound data;
A data processing apparatus comprising:
前記特定部音声データに対応する置換前テキストデータと、前記置換後テキストデータとの組み合わせを記憶させる組み合わせ記憶部と、
前記置換後テキストデータから前記置換部音声データを音声合成して前記音声データ置換部に出力する置換音声合成部と、
をさらに備える、
請求項1に記載のデータ処理装置。
A combination storage unit for storing a combination of the pre-replacement text data corresponding to the specific unit audio data and the post-replacement text data;
A replacement speech synthesizer that synthesizes the replacement unit speech data from the replaced text data and outputs the synthesized speech data to the speech data replacement unit;
Further comprising
The data processing apparatus according to claim 1.
前記特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出部と、
前記置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフト部と、
をさらに備える、
請求項1または請求項2に記載のデータ処理装置。
An utterance time detection unit for detecting an utterance start time and an utterance end time of the specific unit audio data;
The speech data shift unit that shifts the speech end time and the speech data after the speech end time according to the speech time of the replacement unit speech data;
Further comprising
The data processing apparatus according to claim 1 or 2.
前記音声データシフト部は、前記置換部音声データの発話開始時刻を前記特定部音声データの発話開始時刻とする、
請求項3に記載のデータ処理装置。
The voice data shift unit sets the utterance start time of the replacement unit voice data as the utterance start time of the specific unit voice data.
The data processing apparatus according to claim 3.
前記音声データシフト部は、前記発話開始時刻と前記置換部音声データの発話時間とから前記置換部音声データの発話終了時刻を算出し、前記置換部音声データの後に続く音声データの発話開始時刻を、前記算出した発話終了時刻以降にシフトする、
請求項4に記載のデータ処理装置。
The voice data shift unit calculates the utterance end time of the replacement unit voice data from the utterance start time and the utterance time of the replacement unit voice data, and determines the utterance start time of the voice data following the replacement unit voice data. , Shift after the calculated utterance end time,
The data processing apparatus according to claim 4.
前記音声データシフト部は、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする、
請求項3に記載のデータ処理装置。
The voice data shift unit is configured such that when the utterance time of the replacement unit voice data is equal to or shorter than the utterance time of the specific unit voice data, the utterance end time of the replacement unit voice data becomes the utterance end time of the specific unit voice data. , Shifting the utterance start time of the replacement unit voice data,
The data processing apparatus according to claim 3.
前記特定部音声データに対応する置換前テキストデータと、前記置換後テキストデータとの組み合わせを編集する操作部をさらに備える、
請求項1に記載のデータ処理装置。
An operation unit for editing a combination of the pre-replacement text data corresponding to the specific unit audio data and the post-replacement text data;
The data processing apparatus according to claim 1.
前記音声データシフト部は、前記特定部音声データと同じ長さを有する前記置換部音声データを生成する、
請求項3に記載のデータ処理装置。
The audio data shift unit generates the replacement unit audio data having the same length as the specific unit audio data.
The data processing apparatus according to claim 3.
前記音声データ置換部が前記特定部音声データを前記置換部音声データに置換した履歴を記憶する置換履歴記憶部をさらに備える、
請求項1に記載のデータ処理装置。
The voice data replacement unit further includes a replacement history storage unit that stores a history of replacing the specific unit voice data with the replacement unit voice data.
The data processing apparatus according to claim 1.
収音音声データの認識結果を出力するデータ処理システムであって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備えるデータ処理システム。
A data processing system that outputs a recognition result of collected sound data,
An audio data replacement unit that replaces the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputs the converted audio data;
A communication unit that transmits the voice data for conversion to a voice recognition server and receives text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement unit that outputs as a recognition result of the collected sound data;
A data processing system comprising:
収音音声データの認識結果を出力するデータ処理方法であって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換ステップと、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信ステップと、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換ステップと、
を備えるデータ処理方法。
A data processing method for outputting a recognition result of collected sound data,
A voice data replacement step of replacing the specific part voice data included in the collected voice data with replacement voice data different from the specific part voice data and outputting the voice data for conversion;
A communication step of transmitting the voice data for conversion to a voice recognition server and receiving text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement step for outputting the collected sound data as a recognition result;
A data processing method comprising:
前記特定音声データに対応する置換前テキストデータと、前記置換後テキストデータとの組み合わせを記憶させる組み合わせ記憶ステップと、
前記置換後テキストデータから前記置換部音声データを音声合成して音声データ置換部に出力する置換音声合成ステップと、
をさらに備える、
請求項11に記載のデータ処理方法。
A combination storage step of storing a combination of the pre-replacement text data corresponding to the specific speech data and the post-replacement text data;
A replacement speech synthesis step of synthesizing the replacement unit speech data from the post-substitution text data and outputting the synthesized speech data to the speech data replacement unit;
Further comprising
The data processing method according to claim 11.
前記特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出ステップと、
前記置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフトステップと、
をさらに備える、
請求項11または請求項12に記載のデータ処理方法。
An utterance time detection step of detecting an utterance start time and an utterance end time of the specific part voice data;
A speech data shift step for shifting the speech end time and the speech data after the speech end time according to the speech time of the replacement unit speech data;
Further comprising
The data processing method according to claim 11 or 12.
前記音声データシフトステップは、前記置換部音声データの発話開始時刻を前記特定部音声データの発話開始時刻とする、
請求項13に記載のデータ処理方法。
In the voice data shift step, the utterance start time of the replacement unit voice data is set as the utterance start time of the specific unit voice data.
The data processing method according to claim 13.
前記音声データシフトステップは、前記発話開始時刻と前記置換部音声データの発話時間とから前記置換部音声データの発話終了時刻を算出し、前記置換部音声データの後に続く音声データの発話開始時刻を、前記算出した発話終了時刻以降にシフトする、
請求項14に記載のデータ処理方法。
The voice data shift step calculates the utterance end time of the replacement unit voice data from the utterance start time and the utterance time of the replacement unit voice data, and sets the utterance start time of the voice data following the replacement unit voice data. , Shift after the calculated utterance end time,
The data processing method according to claim 14.
前記音声データシフトステップは、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする、
請求項13に記載のデータ処理方法。
In the voice data shift step, when the utterance time of the replacement part voice data is equal to or shorter than the utterance time of the specific part voice data, the utterance end time of the replacement part voice data becomes the utterance end time of the specific part voice data. , Shifting the utterance start time of the replacement unit voice data,
The data processing method according to claim 13.
前記特定部音声データに対応する置換前テキストデータと、前記置換後テキストデータとの組み合わせを編集する操作ステップをさらに備える、
請求項11に記載のデータ処理方法。
An operation step of editing a combination of the pre-replacement text data corresponding to the specific part audio data and the post-replacement text data;
The data processing method according to claim 11.
前記音声データシフトステップは、前記特定部音声データと同じ長さを有する前記置換部音声データを生成する、
請求項13に記載のデータ処理方法。
The voice data shift step generates the replacement unit voice data having the same length as the specific unit voice data.
The data processing method according to claim 13.
前記音声データ置換ステップにおいて、前記特定部音声データを前記置換部音声データに置換した履歴を記憶する置換履歴記憶ステップをさらに備える、
請求項11に記載のデータ処理方法。
The voice data replacement step further includes a replacement history storage step of storing a history of replacing the specific unit voice data with the replacement unit voice data.
The data processing method according to claim 11.
収音音声データの認識結果を出力するデータ処理装置において実行されるデータ処理プログラムであって、
前記データ処理装置のコンピュータに対して、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力させる処理と、
前記変換用音声データを音声認識サーバへ送信させ、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信させる処理と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出させ、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力させる処理と、
を実行させるデータ処理プログラム。
A data processing program executed in a data processing device that outputs a recognition result of collected sound data,
For the computer of the data processing device,
A process of replacing the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputting the converted audio data as conversion audio data;
Processing for transmitting the voice data for conversion to a voice recognition server and receiving text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, the post-replacement text data corresponding to the replacement unit speech data is extracted, and the post-replacement text data is replaced with the pre-replacement text data corresponding to the specific unit speech data. Processing to output the collected sound data as a recognition result;
Data processing program that executes
JP2016097117A 2016-05-13 2016-05-13 Data processing device, data processing system, data processing method, and data processing program Active JP6731609B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016097117A JP6731609B2 (en) 2016-05-13 2016-05-13 Data processing device, data processing system, data processing method, and data processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016097117A JP6731609B2 (en) 2016-05-13 2016-05-13 Data processing device, data processing system, data processing method, and data processing program

Publications (2)

Publication Number Publication Date
JP2017203953A true JP2017203953A (en) 2017-11-16
JP6731609B2 JP6731609B2 (en) 2020-07-29

Family

ID=60321546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016097117A Active JP6731609B2 (en) 2016-05-13 2016-05-13 Data processing device, data processing system, data processing method, and data processing program

Country Status (1)

Country Link
JP (1) JP6731609B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107624A (en) * 2006-10-26 2008-05-08 Kddi Corp Transcription system
JP2010193391A (en) * 2009-02-20 2010-09-02 Oki Networks Co Ltd Speech system, speech method, speech program, telephone terminal and exchange
WO2011052412A1 (en) * 2009-10-28 2011-05-05 日本電気株式会社 Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
US20140207442A1 (en) * 2013-01-24 2014-07-24 Nuance Communications, Inc. Protection of Private Information in a Client/Server Automatic Speech Recognition System
JP2015088890A (en) * 2013-10-30 2015-05-07 コニカミノルタ株式会社 Operation guide server, operation guide system, image formation apparatus and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107624A (en) * 2006-10-26 2008-05-08 Kddi Corp Transcription system
JP2010193391A (en) * 2009-02-20 2010-09-02 Oki Networks Co Ltd Speech system, speech method, speech program, telephone terminal and exchange
WO2011052412A1 (en) * 2009-10-28 2011-05-05 日本電気株式会社 Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
US20140207442A1 (en) * 2013-01-24 2014-07-24 Nuance Communications, Inc. Protection of Private Information in a Client/Server Automatic Speech Recognition System
JP2015088890A (en) * 2013-10-30 2015-05-07 コニカミノルタ株式会社 Operation guide server, operation guide system, image formation apparatus and program

Also Published As

Publication number Publication date
JP6731609B2 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
JP4478939B2 (en) Audio processing apparatus and computer program therefor
JP4946293B2 (en) Speech enhancement device, speech enhancement program, and speech enhancement method
JP2010060850A (en) Minute preparation support device, minute preparation support method, program for supporting minute preparation and minute preparation support system
JP6716300B2 (en) Minutes generation device and minutes generation program
CN113498536A (en) Electronic device and control method thereof
JP2013109061A (en) Voice data retrieval system and program for the same
JP2014202848A (en) Text generation device, method and program
JP2012163692A (en) Voice signal processing system, voice signal processing method, and voice signal processing method program
US20130024192A1 (en) Atmosphere expression word selection system, atmosphere expression word selection method, and program
JPWO2014203370A1 (en) Speech synthesis dictionary creation device and speech synthesis dictionary creation method
JP6731609B2 (en) Data processing device, data processing system, data processing method, and data processing program
JP5689774B2 (en) Interactive information transmitting apparatus, interactive information transmitting method, and program
JP5818753B2 (en) Spoken dialogue system and spoken dialogue method
JP2017198790A (en) Speech evaluation device, speech evaluation method, method for producing teacher change information, and program
CN111429878B (en) Self-adaptive voice synthesis method and device
JP2017187797A (en) Text generation device, method, and program
JP4286583B2 (en) Waveform dictionary creation support system and program
KR102267579B1 (en) System of cloud-based conversion speech source to text and method performing the same
JP6342792B2 (en) Speech recognition method, speech recognition apparatus, and speech recognition program
JP6984769B2 (en) Information provision method and information provision system
JP2004294577A (en) Method of converting character information into speech
JP5049310B2 (en) Speech learning / synthesis system and speech learning / synthesis method
JP6389348B1 (en) Voice data optimization system
JP2021117430A (en) Utterance content display device, utterance content display system, utterance content display method, and utterance content display program
JP2018128576A (en) Business determination device, business determination method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190313

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190625

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200617

R151 Written notification of patent or utility model registration

Ref document number: 6731609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151