JP2017203953A - Data processing device, data processing system, data processing method and data processing program - Google Patents
Data processing device, data processing system, data processing method and data processing program Download PDFInfo
- Publication number
- JP2017203953A JP2017203953A JP2016097117A JP2016097117A JP2017203953A JP 2017203953 A JP2017203953 A JP 2017203953A JP 2016097117 A JP2016097117 A JP 2016097117A JP 2016097117 A JP2016097117 A JP 2016097117A JP 2017203953 A JP2017203953 A JP 2017203953A
- Authority
- JP
- Japan
- Prior art keywords
- data
- replacement
- unit
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、音声データをテキスト化するデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムに関する。 The present invention relates to a data processing apparatus, a data processing system, a data processing method, and a data processing program for converting audio data into text.
企業等の組織において、会議での話者の発言内容が記載される議事録を作成する場合、通常は書記を1名もしくは複数名割り当て、書記が聞いた内容を手動でテキスト化する方法がとられている。しかし、この方法ではコストがかかる、正確性に欠けるという問題から、音声認識装置を用い、自動で議事録を作成するシステムが提案されている(特許文献1参照)。この技術では、音声認識処理を各会議参加者が所有する情報処理端末で実施する。 In organizations such as corporations, when creating minutes of meetings, the contents of the speaker's statements are usually assigned by assigning one or more clerks and manually transcribing the contents heard by the clerk. It has been. However, due to the problem that this method is costly and lacks accuracy, a system has been proposed in which a minutes is automatically created using a speech recognition device (see Patent Document 1). In this technology, voice recognition processing is performed at an information processing terminal owned by each conference participant.
ところで、会議議事録等の話し言葉全体を十分な精度で音声認識・テキスト化するためには外部サーバ等の高い計算能力並びにそこに格納される十分に蓄積された学習データが必要である。したがって、会議議事録を十分な精度で音声認識・テキスト化するためには、外部サーバに会議参加者の発話音声データを送信し、音声認識・テキスト化する必要がある。しかしながら、発話内容に機密情報が含まれる場合、外部の音声認識サーバに発話音声データを送信すると機密情報が外部に漏洩する可能性がある。 By the way, in order to recognize and text the entire spoken language such as the minutes of a meeting with sufficient accuracy, high calculation capability such as an external server and sufficiently accumulated learning data stored therein are required. Therefore, in order to speech-recognize and text conference minutes with sufficient accuracy, it is necessary to transmit speech data of conference participants to an external server for speech recognition and text. However, when confidential information is included in the utterance content, there is a possibility that confidential information may be leaked to the outside if the utterance voice data is transmitted to an external voice recognition server.
本発明の目的は、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することが可能であり、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷の軽減と、処理スピードの確保をすることが可能なデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムを提供することである。 An object of the present invention is to reduce the possibility of leakage of confidential information to the outside when transmitting utterance voice data to a voice recognition server, and to enable voice recognition / text conversion with sufficient accuracy. It is to provide a data processing device, a data processing system, a data processing method, and a data processing program capable of reducing the processing load of voice recognition and text processing performed by the information processing terminal and ensuring the processing speed. .
本開示のデータ処理装置は、
収音音声データの認識結果を出力するデータ処理装置であって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備える。
The data processing apparatus of the present disclosure
A data processing device that outputs a recognition result of collected sound data,
An audio data replacement unit that replaces the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputs the converted audio data;
A communication unit that transmits the voice data for conversion to a voice recognition server and receives text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement unit that outputs as a recognition result of the collected sound data;
Is provided.
本開示のデータ処理システムは、
収音音声データの認識結果を出力するデータ処理システムであって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備える。
The data processing system of the present disclosure includes:
A data processing system that outputs a recognition result of collected sound data,
An audio data replacement unit that replaces the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputs the converted audio data;
A communication unit that transmits the voice data for conversion to a voice recognition server and receives text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement unit that outputs as a recognition result of the collected sound data;
Is provided.
本開示のデータ処理方法は、
収音音声データの認識結果を出力するデータ処理方法であって、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換ステップと、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信ステップと、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換ステップと、
を備える。
The data processing method of the present disclosure includes:
A data processing method for outputting a recognition result of collected sound data,
A voice data replacement step of replacing the specific part voice data included in the collected voice data with replacement voice data different from the specific part voice data and outputting the voice data for conversion;
A communication step of transmitting the voice data for conversion to a voice recognition server and receiving text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement step for outputting the collected sound data as a recognition result;
Is provided.
本開示のデータ処理プログラムは、
収音音声データの認識結果を出力するデータ処理装置において実行されるデータ処理プログラムであって、
前記データ処理装置のコンピュータに対して、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力させる処理と、
前記変換用音声データを音声認識サーバへ送信させ、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信させる処理と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出させ、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力させる処理と、
を実行させる。
The data processing program of the present disclosure
A data processing program executed in a data processing device that outputs a recognition result of collected sound data,
For the computer of the data processing device,
A process of replacing the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputting the converted audio data as conversion audio data;
Processing for transmitting the voice data for conversion to a voice recognition server and receiving text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, the post-replacement text data corresponding to the replacement unit speech data is extracted, and the post-replacement text data is replaced with the pre-replacement text data corresponding to the specific unit speech data. Processing to output the collected sound data as a recognition result;
Is executed.
本発明によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、本開示は、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。 According to the present invention, it is possible to reduce the possibility of leakage of confidential information to the outside when transmitting utterance voice data to the voice recognition server, and to perform voice recognition / text conversion with sufficient accuracy. In addition, the present disclosure can reduce the load of speech recognition / text processing performed by the internal information processing terminal, and can ensure the processing speed.
以下、本発明に係る音声処理システムを具体的に示した実施形態(以下、「本実施形態」という)について、図面を参照して説明する。 Hereinafter, an embodiment (hereinafter referred to as “the present embodiment”) that specifically shows a speech processing system according to the present invention will be described with reference to the drawings.
(第1実施形態)
図1は、本第1実施形態の音声処理システムが設置された場所のイメージの一例を示す図である。図2は、本第1実施形態の音声処理システム1のシステム構成を示すブロック図である。図3は、本第1実施形態の音声処理システム1の音声データ置換に関する動作手順を説明するフローチャートである。図4は、本第1実施形態の音声処理システム1の音声認識サーバ10に関する動作手順の一例を説明するフローチャートである。図5は、音声処理システム1のテキストデータ逆置換に関する動作手順を示すフローチャートである。
(First embodiment)
FIG. 1 is a diagram illustrating an example of an image of a place where the voice processing system according to the first embodiment is installed. FIG. 2 is a block diagram showing a system configuration of the
図1〜図5に示す音声処理システム1は、音声認識が行われる場所2(例えば会議室、銀行カウンター、事務所)に設置された、音声入力処理部3(無指向性マイク、指向性マイク、ヘッドセットなど)を介して発話者が発話する音声を収音し、認識結果を表示部4に出力する。2人の会議参加者の内、1人が音声認識発話者5となり、音声入力処理部3が音声認識発話者5の発話音声6を収音している。発話音声6は、データ処理装置7によって変換用音声データ8に置換され、ネットワーク9を介して音声認識サーバ10に送信される。ネットワーク9は、有線ネットワーク(例えばイントラネット、インターネット)でも良いし、無線ネットワーク(例えば無線LAN(Local Area Network))でも良い。音声認識サーバ10は変換用音声データ8に対応するテキストデータ11をデータ処理装置7に送信する。データ処理装置7は、音声認識サーバ10より受信したテキストデータ11を、発話音声6に対応するテキストデータに逆置換して、その逆置換したテキストデータを、発話音声6の認識結果として表示部4に出力する。更に、データ処理装置7には、操作を行う操作部12が設置されてもよい。
The
音声入力処理部3は、音声認識発話者5が発話した発話音声6を収音し、収音音声データ13として発話区間検出部14に出力する(音声入力処理S1)。
The voice
発話区間検出部14は、入力された収音音声データ13から音声認識発話者5の発話区間前後の雑音部分を取り除いた、発話区間音声データ15を特定音声データ検出部16に出力する(発話区間検出処理S2)。
The utterance
特定音声データ検出部16は、入力された発話区間音声データ15と、組み合わせ記憶部18に記憶されている組み合わせ表19とを基に、発話された特定部音声データ20を生成し、発話時刻検出部17に出力する(特定音声データ検出処理S3)。発話時刻検出部17は、特定部音声データ20の発話開始時刻と、発話終了時刻とが記載された、特定情報発話時刻表21を生成し置換音声合成部22に出力する。(発話時刻検出処理S4)。
The specific voice
置換音声合成部22は、入力された特定情報発話時刻表21を基に、置換部音声データ23を含む置換音声データ表24を生成し音声データシフト部25に出力する(置換音声合成処理S5)。
The
音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24とを基に、シフト発話区間音声データ27を生成し音声データ置換部26に出力する(音声データシフト処理S6)。音声データシフト処理S6により、置換後の音声データを含む変換用音声データ8が置換前と同様に自然な形で生成されるので、音声認識・テキスト化の精度を確保することができる。
The voice data shift
音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に生成した置換履歴表28を置換履歴記憶部29に記憶し、変換用音声データ8を通信部30に出力する(音声データ置換処理S7)。置換履歴記憶部29を備えることにより、テキストデータから置換前テキストデータを作成する際の処理が容易になる。
The voice
通信部30は、入力された変換用音声データ8を、ネットワーク9を介して、音声認識サーバ10に送信する(変換用音声データ送信処理S8)。
The
音声認識サーバ10は、ネットワーク9を介して変換用音声データ8を受信し(変換用音声データ受信処理S11)、受信した変換用音声データ8をテキストデータ11に変換し(音声データ変換処理S12)、変換したテキストデータ11を、ネットワーク9に送信する(テキストデータ送信処理S13)。データ処理装置7の通信部30は、ネットワーク9を介して受信したテキストデータ11を、テキストデータ逆置換部31に出力する(テキストデータ受信処理S21)。
The
テキストデータ逆置換部31は、入力されたテキストデータ11と、置換履歴記憶部29に記憶されている置換履歴表28とを基に、本来得られるべき認識結果を生成し(テキストデータ逆置換処理S22)、その認識結果を表示部4に出力する(認識結果出力処理S23)。なお、操作部12が備わっている場合は、ユーザは操作部12を介して組み合わせ記憶部18に記憶されている組み合わせ表19を編集することで、置き換えたい特定音声をテキストにより適宜指定し、置き換え後の言葉を容易に指定することができる。操作部12は例えば、マウスやキーボードなどである。
The text data reverse
図6は、本第1実施形態において音声入力処理部3が実施する音声入力処理S1の例である。音声入力処理部3は例えば、無指向性マイク、指向性マイク、ヘッドセットなどの収音可能な装置を備え、周囲の環境雑音音声や、音声認識発話者5の発話音声6を収音する。音声入力処理部3は、収音した音声をアナログ電気信号に変換し、更に前記アナログ電気信号をデジタル音声データに変換(パルス符号変調(PCM)など)し、収音音声データ13として出力する。
FIG. 6 is an example of the voice input process S1 performed by the voice
図7は、本第1実施形態において発話区間検出部14が実施する発話区間検出処理S2の例である。音声入力処理部3が出力した収音音声データ13は発話区間検出部14に入力される。音声認識発話者5が発話している時間帯前後の音声データには、環境雑音音声のみが含まれる。環境雑音音声部分は音声認識を行う必要がないため、発話区間検出部14は収音音声データ13の特徴(波形振幅、周波数帯域など)から収音音声データ13の内、音声認識発話者5が発話した区間の音声データを発話区間音声データ15として切り出し、それを出力する。
FIG. 7 is an example of the speech segment detection process S2 performed by the speech
図8は、本第1実施形態における組み合わせ表19の例を示す図である。組み合わせ表19は、組み合わせID列、置換前テキストデータ列および置換後テキストデータ列から構成される。組み合わせID列には、組み合わせを一意に識別するための識別番号が記載される。置換前テキストデータ列には、発話区間音声データ15内の特定部音声データ20を検出するために、特定音声データ検出部16が検出する短い語又はフレーズが記載される。置換後テキストデータ列には、置換音声合成部22が置換部音声データ23を生成するために参照する置換音声データ表24を作成するための情報が記載される。
FIG. 8 is a diagram illustrating an example of the combination table 19 in the first embodiment. The combination table 19 includes a combination ID column, a text data string before replacement, and a text data string after replacement. In the combination ID column, an identification number for uniquely identifying the combination is described. In the pre-replacement text data string, a short word or phrase detected by the specific voice
組み合わせ表19に記載される組み合わせすべてにおいて、置換前テキストデータ列と置換後テキストデータ列には、音声データ置換部26が収音音声データ13から変換用音声データ8を出力する場合に、変換用音声データ8内の文章の文脈が不自然にならないよう、記載する必要がある。例えば、「福岡支店」を「サウジアラビア支店」に置換した変換用音声データ8の文章は自然であるが、「福岡支店」を「1000支店」に置換した変換用音声データ8の文章は不自然である。変換用音声データ8の文脈が不自然な場合、音声認識サーバ10の処理にて一部の不自然な文脈が、音声認識サーバ10が出力するテキストデータ11全体に影響する可能性がある。
In all combinations described in the combination table 19, when the voice
例えば組み合わせ表19の置換前テキストデータ列に、「[福岡]支店」と記載され、置換後テキストデータ列に、「サウジアラビア」と記載されている場合、その記載は、「福岡支店」という発話に対応する特定部音声データ20を「サウジアラビア支店」という発話に対応する置換部音声データ23に置換する、ということを意味する。また、例えば置換前音声テキストデータ列に「売り上げは[*]円」と記載され、置換後テキストデータ列に、「ランダム値(1、10000)」と記載されている場合、その記載は、「売り上げは1億円」や「売り上げは5000万円」等の発話に対応する特定部音声データ20を「売り上げは1000円」等の発話に対応する置換部音声データ23に置換される、ということを意味する。ここで、「[*]」は任意の発話内容を意味し、「ランダム値(1、10000)」は1から10000までの間の整数がランダムに選択されることを意味する。
For example, if “[Fukuoka] branch” is described in the pre-replacement text data string of the combination table 19 and “Saudi Arabia” is described in the post-replacement text data string, the description is in the utterance “Fukuoka branch”. This means that the corresponding specific
図9は、本第1実施形態における特定音声データ検出処理S3の処理例を示す図である。特定音声データ検出処理S3では、特定部音声データ20を含む発話区間音声データ15と組み合わせ表19とが、特定音声データ検出部16および発話時刻検出部17に入力される。特定音声データ検出部16は、発話区間音声データ15から特定部音声データ20を検出する。発話時刻検出部17は、算出した発話開始時刻と発話終了時刻、組み合わせ表19の組み合わせID、置換前テキストデータおよび置換後テキストデータを含む特定情報発話時刻表21を出力する。
FIG. 9 is a diagram illustrating a processing example of the specific voice data detection processing S3 in the first embodiment. In the specific voice data detection process S <b> 3, the utterance
図10は、本第1実施形態における特定情報発話時刻表21の例を示す図である。
特定情報発話時刻表21は、組み合わせID列、置換前テキストデータ列、置換後テキストデータ列、発話開始時刻列および発話終了時刻列から構成される。
FIG. 10 is a diagram illustrating an example of the specific information utterance time table 21 in the first embodiment.
The specific information utterance time table 21 includes a combination ID string, a pre-replacement text data string, a post-replacement text data string, an utterance start time string, and an utterance end time string.
図10に示す特定情報発話時刻表21は、「2015年度の業績、福岡支店の売り上げは1億円という結果になった」という発話と対応する発話区間音声データ15を基に作成されたものである。特定情報発話時刻表21の組み合わせID「4」は、図8に示す組み合わせ表19の組み合わせID「4」に対応する。図10に示す特定情報発話時刻表21のID「4」が記載されている行の「置換前テキストデータ」列には、組み合わせ表19の置換前テキストデータ列に記載されている「[福岡]支店」の代わりに、その[ ]内に記載されている「福岡」のみが記載され、「置換後テキストデータ」列には「サウジアラビア」が記載される。そして、組み合わせID「4」が記載されている行の「発話開始時刻」および「発話終了時刻」の各列欄には、算出した「福岡」の発話開始時刻「2.0」と発話終了時刻「2.3」が、それぞれ記載される。このようにして、特定情報発話時刻表21のID「4」が記載されている行は生成される。
The specific
組み合わせID「4」と同様に、図10に示す特定情報発話時刻表21の組み合わせID「1」は、図8に示す組み合わせ表19の組み合わせID「1」に対応する。図10に示す特定情報発話時刻表21のID「1」が記載されている行の「置換前テキストデータ」列には、組み合わせ表19の置換前テキストデータ列に記載されている「売り上げは[*]円」(ここでは*=1億と検知)の代わりに、その[ ]内で検知した「1億」のみが記載される。そして、図10に示す特定情報発話時刻表21の「置換後テキストデータ」列の欄には、組み合わせ表19の置換前テキストデータ列に記載されている「ランダム値(1、10000)」の代わりに、ランダム値として選ばれた「1000」が記載される。組み合わせID「1」が記載されている行の「発話開始時刻」および「発話終了時刻」の各列欄には、算出した「1億」の発話開始時刻「3.5」、発話終了時刻「3.7」が、それぞれ記載される。このようにして、特定情報発話時刻表21のID「1」が記載されている行は生成される。 Similar to the combination ID “4”, the combination ID “1” of the specific information utterance time table 21 shown in FIG. 10 corresponds to the combination ID “1” of the combination table 19 shown in FIG. In the “pre-replacement text data” column of the line in which the ID “1” of the specific information utterance time table 21 shown in FIG. 10 is described, “sales is [ Instead of “*] Yen” (* = 100 million detected here), only “100 million” detected within [] is described. Then, in the column of “post-replacement text data” column of the specific information utterance time table 21 shown in FIG. 10, instead of “random value (1, 10000)” described in the pre-replacement text data column of the combination table 19 “1000” selected as a random value is described. In the column of “speech start time” and “speech end time” in the row in which the combination ID “1” is described, the calculated “100 million” utterance start time “3.5”, utterance end time “ 3.7 "is described respectively. In this way, a row in which the ID “1” of the specific information utterance time table 21 is described is generated.
図11は、本第1実施形態における置換音声データ表24と置換音声合成処理S5の処理例を示す図である。置換音声合成部22は、入力された特定情報発話時刻表21を基に、置換音声データ表24を生成し、出力する。置換音声データ表24の生成については後ほど説明する。生成された置換音声データ表24は、「置換部ID」列、「置換部音声データ内容」列、「発話開始時刻」列、「発話終了時刻」列、「置換部音声データ長」列、「シフト量」列、「置換部音声データ」列から構成される。「置換部ID」列には、置換部音声データ23を一意に識別するための識別番号が記載される。「置換部音声データ内容」列には、置換部音声データ23の発話内容が記載される。「発話開始時刻」列には、置換部音声データ23をシフト発話区間音声データ27に置換する際の置換開始位置が記載される。「発話終了時刻」列には、置換部音声データ23をシフト発話区間音声データ27に置換する際の置換終了位置が記載される。「置換部音声データ長」列には、置換部音声データ23の発話長が記載される。「シフト量」列には、音声データシフト処理S6にて、音声データをどれだけシフトするかを示す数値が記載される。「置換部音声データ」列には置換部音声データ23が格納される。
FIG. 11 is a diagram illustrating a processing example of the replacement speech data table 24 and the replacement speech synthesis processing S5 in the first embodiment. The
次に、置換音声データ表24の生成について、いくつかを例にとって説明する。
図11において、特定情報発話時刻表21が置換音声合成部22に入力されると、置換音声合成部22は、入力された特定情報発話時刻表21の1行目、すなわち、組み合わせID「4」行にある置換前テキストデータおよび置換後テキストデータに関する項目を、置換音声データ表24の1行目、すなわち、置換部ID「1」行にある各列に、それぞれ記載する。特定情報発話時刻表21の組み合わせID「4」行にある「置換後テキストデータ」列の「サウジアラビア」は、置換音声データ表24の置換部ID「1」行にある「置換部音声データ内容」列に記載される。特定情報発話時刻表21の組み合わせID「4」行の「発話開始時刻」列にある「2.0」は、置換音声データ表24の置換部ID「1」行にある「発話開始時刻」列に記載される。特定情報発話時刻表21の組み合わせID「4」行の「発話終了時刻」列にある「2.3」は、置換音声データ表24の置換部ID「1」行にある「発話終了時刻」列に記載される。置換部ID「1」行の「置換部音声データ」列には、「置換部音声データ内容」列に記載された「サウジアラビア」を、自然な話し速度で発話する音声の音データが、置換部音声データ23として格納される。そして、置換部ID「1」行の「置換部音声データ長」列には、その「サウジアラビア」の音データの長さである「0.5」が記入される。さらに、置換部ID「1」行の「シフト量」列には、所定の式、例えば置換部音声データ長−(発話終了時刻−発話開始時刻)から算出される値「0.2」が記入される。
Next, the generation of the replacement voice data table 24 will be described with some examples.
In FIG. 11, when the specific information utterance time table 21 is input to the
1行目と同様に、置換音声合成部22は、入力された特定情報発話時刻表21の2行目、すなわち、組み合わせID「1」行にある置換前テキストデータおよび置換後テキストデータに関する項目を、置換音声データ表24の2行目、すなわち、置換部ID「2」行にある各列に、それぞれ記載する。特定情報発話時刻表21の組み合わせID「1」行にある「置換部テキストデータ」列の「1000」は、置換音声データ表24の置換部ID「2」行にある「置換部音声データ内容」列に記載される。ただし、置換音声データ表24の置換部ID「2」行にある「発話開始時刻」列には、特定情報発話時刻表21の組み合わせID「1」行の「発話開始時刻」列にある「3.5」に、置換部ID「1」行の「シフト量」列に記載された値「0.2」が加算された値「3.7」が記載される。これと同様に、置換音声データ表24の置換部ID「2」行にある「発話終了時刻」列には、特定情報発話時刻表21の組み合わせID「1」行の「発話終了時刻」列にある「3.7」に、置換部ID「1」行の「シフト量」列に記載された値「0.2」が加算された値「3.9」が記載される。置換部ID「2」行の「置換部音声データ」列には、「置換部音声データ内容」列に記載された「1000」を、自然な話し速度で発話する音声の音データが、置換部音声データ23として格納される。そして、置換部ID「2」行の「置換部音声データ長」列には、その「1000」の音データの長さである「0.1」が記入される。さらに、置換部ID「2」行の「シフト量」列には、所定の式、例えば置換部音声データ長−(発話終了時刻−発話開始時刻)から算出される値「−0.1」が記入される。
Similarly to the first line, the
図12は、本第1実施形態における音声データシフト処理S6の処理例を示す図である。音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24を基に、シフト発話区間音声データ27を生成し出力する。音声データシフト部25に入力された置換音声データ表24の1行目の発話終了時刻には「2.3」が記載され、シフト量列には「0.2」が記載されていることから、音声データシフト部25は、入力された発話区間音声データ15の2.3秒以降の音声データをすべて、正の方向に(すなわち後ろに)0.2秒シフトする。更に、音声データシフト部25に入力された置換音声データ表24の2行目の発話終了時刻には「3.9」が記載され、シフト量列には「−0.1」が記載されていることから、音声データシフト部25は入力された発話区間音声データ15の3.9秒以降の音声データをすべて、負の方向に(すなわち前に)0.1秒シフトする。こうして音声データシフト部25は、前記音声データシフト処理S6が終了した後の音声データを、シフト発話区間音声データ27として出力する。
FIG. 12 is a diagram illustrating a processing example of the audio data shift processing S6 in the first embodiment. The voice data shift
これにより置換後の音声データを含む交換用音声データ8が、置換前と同様に自然な形で生成されるので、音声認識・テキスト化の精度を確保することができる。
As a result, the
図13は、本第1実施形態における音声データ置換処理S7の処理例を示す図である。音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に、置換履歴表28と変換用音声データ8を生成し、出力する。置換音声データ表第1行の発話開始時刻列には「2.0」が、置換部音声データ長列には「0.5」が記載されているため、シフト発話区間音声データ27の内、2.0秒から2.5秒の音声データを、置換音声データ表24の第1行の置換部音声データ列に格納されている置換部音声データ23の音声データに置換する。置換音声データ表24第2行についても同様の処理を行い、置換後の音声データを変換用音声データ8として出力する。
FIG. 13 is a diagram illustrating a processing example of the audio data replacement processing S7 in the first embodiment. The voice
図14は、本第1実施形態における置換履歴表28の例を示す図である。置換履歴表28は「置換前」列と「置換後」列から構成される。例えば、置換履歴表28の第1行の「置換前」列に「福岡」が、「置換後」列に「サウジアラビア」が記載され、置換履歴表28の第2行の「置換前」列に「1億」が、「置換後」列に「1000」が記載されている場合、シフト発話区間音声データ27の「福岡」に対応する特定部音声データ20が「サウジアラビア」に対応する置換部音声データ23に置換され、シフト発話区間音声データの27「1億」に対応する特定部音声データ20が「1000」に対応する置換部音声データ23に置換された変換用音声データ8が生成されたことを意味する。
FIG. 14 is a diagram showing an example of the replacement history table 28 in the first embodiment. The replacement history table 28 includes “before replacement” columns and “after replacement” columns. For example, “Fukuoka” is described in the “before replacement” column of the first row of the replacement history table 28, “Saudi Arabia” is described in the “after replacement” column, and the “before replacement” column of the second row of the replacement history table 28 is displayed. When “100 million” is described in the “after replacement” column, “1000” is described, the replacement part voice corresponding to “Saudi Arabia” is the specific
図15は、本第1実施形態における変換用音声データ送信処理S8と変換用音声データ受信処理S11と音声データ変換処理S12とテキストデータ送信処理S13の処理例を示す図である。図15において、通信部30は、入力された変換用音声データ8をデータ処理装置7の外部(例えば音声認識サーバ10)に送信する。変換用音声データ8を受信した音声認識サーバ10は、変換用音声データ8を対応するテキストデータ11に変換し、通信部30に出力する。例えば、「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」という変換用音声データ8が入力された場合、「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」という、変換されたテキストデータ11を通信部30に出力する。通信部30は、入力されたテキストデータ11をデータ処理装置7に送信する。通信部30と音声認識サーバ10の間の送受信経路として、Ethernet、USB、RC232(シリアル通信)などが挙げられる。
FIG. 15 is a diagram illustrating processing examples of the conversion voice data transmission process S8, the conversion voice data reception process S11, the voice data conversion process S12, and the text data transmission process S13 in the first embodiment. In FIG. 15, the
図16は、本第1実施形態におけるテキストデータ逆置換処理S22と認識結果出力処理S23の処理例を示す図である。テキストデータ逆置換部31は、入力されたテキストデータ11と置換履歴表28とを基に、本来得られるべき認識結果32を出力する。入力されたテキストデータ11が「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」であり、置換履歴表28の1行目の「置換前」列に「福岡」が、「置換後」列に「サウジアラビア」が、2行目の「置換前」列に「1億」が、「置換後」列に「1000」が記載されている場合、テキストデータ逆置換部31は、入力されたテキストデータ11に含まれる「サウジアラビア」を「福岡」に、「1000」を「1億」に逆置換し、「2015年度の業績、福岡支店の売り上げは1億円という結果になった」という、本来得られるべき認識結果32を生成し、表示部4に出力する。表示部4は例えば、ディスプレイ機器や、プリンタ機器などである。
FIG. 16 is a diagram illustrating a processing example of text data reverse replacement processing S22 and recognition result output processing S23 in the first embodiment. The text data reverse
なお、ユーザは、操作部12を介して、組み合わせ表19の編集もしくは、新規作成を行うことで、使用状況に応じた組み合わせ表19を作成することができる。これによりユーザは、置き換えたい特定部音声データ20をテキストにより適宜指定し、置き換え後の言葉を容易に指定することができる。
Note that the user can create the combination table 19 according to the usage status by editing or newly creating the combination table 19 via the
以上のように、本第1実施形態によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。 As described above, according to the first embodiment, the possibility of leakage of confidential information to the outside when transmitting utterance voice data to the voice recognition server is reduced, and voice recognition / text conversion is performed with sufficient accuracy. can do. In addition, it is possible to reduce the load of voice recognition / text processing performed by the internal information processing terminal, and to secure the processing speed.
(第2実施形態)
本第2実施形態については、第1実施形態と異なる部分のみを説明する。それ以外の点については、第1実施形態と同様である。
(Second Embodiment)
Regarding the second embodiment, only the parts different from the first embodiment will be described. The other points are the same as in the first embodiment.
図17は、本第2実施形態における置換音声データ表24と置換音声合成処理S5の例を示す図である。図17において、本第2実施形態が第1実施形態と異なる点は、置換部音声データ長の算出方法と置換部音声データ23の音声データの生成方法である。置換音声合成部22は、入力された特定情報発話時刻表21を基に置換データ表を生成し出力するが、その際、第1実施形態の図11、図12とは異なり、置換音声データ表24の各行について、発話終了時刻から発話開始時刻を差し引いた値を、置換部音声データ長として記載する。具体的には、置換音声合成部22は、置換部ID「1」の行にある「置換部音声データ内容」列「サウジアラビア」の「発話終了時刻」列の値「2.3」から「発話開始時刻」列の値「2.0」を差し引いた値「0.3」を、置換部音声データ長列に格納する。そして、置換音声合成部22は、「0.3」秒間かけて「サウジアラビア」と発話される音声に対応する音声データを、置換部音声データ23として生成し、「置換部音声データ」列に格納する。置換音声データ表24の第2行についても、第1行と同様の処理を行う。
FIG. 17 is a diagram illustrating an example of the replacement speech data table 24 and the replacement speech synthesis process S5 in the second embodiment. In FIG. 17, the second embodiment is different from the first embodiment in a calculation method of the replacement unit audio data length and a generation method of the audio data of the replacement
なお、本第2実施形態の「シフト量」列には、第1行、第2行とも、所定の式(置換部音声データ長−(発話終了時刻−発話開始時刻))から算出される値「0」が記入されるので、シフト処理が行われないこととなる。図18は、本第2実施形態における音声データシフト処理S6の処理例を示す図であり、図19は、本第2実施形態における音声データ置換処理S7の処理例を示す図である。図18、図19に示すように、「福岡」に代わる「サウジアラビア」、「1億」に代わる「1000」の置換部音声データ23が、それぞれ、「福岡」「1億」の各発話開始時刻、発話終了時刻を変えないよう、シフト処理を行わずに同じ長さで生成される。
In the “shift amount” column of the second embodiment, both the first row and the second row are values calculated from a predetermined formula (replacement unit voice data length− (utterance end time−utterance start time)). Since “0” is entered, the shift process is not performed. FIG. 18 is a diagram illustrating a processing example of the audio data shift processing S6 in the second embodiment, and FIG. 19 is a diagram illustrating a processing example of the audio data replacement processing S7 in the second embodiment. As shown in FIG. 18 and FIG. 19, “Saudi Arabia” replacing “Fukuoka” and “1000” replacing
以上のように第2実施形態によれば、置き換えたい音声以外の部分の音声データに対する処理が不要となり、音声データの置換処理を簡略化することができる。 As described above, according to the second embodiment, it is not necessary to process a portion of audio data other than the audio to be replaced, and the audio data replacement processing can be simplified.
(第3実施形態)
本第3実施形態については、第1実施形態又は第2実施形態と異なる部分のみを説明する。それ以外の点については、第1実施形態又は第2実施形態と同様である。
(Third embodiment)
In the third embodiment, only the parts different from the first embodiment or the second embodiment will be described. About other points, it is the same as that of 1st Embodiment or 2nd Embodiment.
図20は、本第3実施形態における置換音声データ表24と置換音声合成処理S5の例を示す図である。図20は、第1実施形態及び第2実施形態での「福岡」を「サウジアラビア」に置き換える場合とは異なり、「福岡」を「タイ」に置き換える例である。置換音声合成部22は、入力された特定情報発話時刻表21を基に置換音声データ表24を生成し出力する点では、第1実施形態及び第2実施形態と同様である。そして、置換音声合成部22が、特定情報発話時刻表21の「置換前テキストデータ」列にある「福岡」の「発話開始時刻」列に記載されている値「2.0」及びその「発話終了時刻」列に記載されている値「2.3」を、それぞれ、置換音声データ表24の「発話開始時刻」列及び「発話終了時刻」列に、それぞれ記入する点についても、第1実施形態及び第2実施形態と同様である。
FIG. 20 is a diagram illustrating an example of the replacement speech data table 24 and the replacement speech synthesis process S5 in the third embodiment. FIG. 20 is an example in which “Fukuoka” is replaced with “Thailand”, unlike the case where “Fukuoka” is replaced with “Saudi Arabia” in the first and second embodiments. The
ただし、本第3実施形態の置換音声合成部22は、第2実施の形態の図17、図18とは異なり、特定情報発話時刻表21の「組み合わせID」列「10」が記載されている1行目の「置換後テキストデータ」列にある記載項目「タイ」を、置換音声データ表24の「置換部ID」列「1」が記載されている1行目の「置換部音声データ内容」列に記入する。そして、本第3実施形態の置換音声合成部22は、「置換後テキストデータ」列にある記載項目「タイ」が自然な話し速度で発話される音声に対応する置換部音声データ23を生成して「置換部音声データ」列に格納し、その発話長さである値「0.1」を「置換部音声データ長」列に記入する。
However, the
図21は、本第3実施形態における音声データシフト処理S6の処理例を示す図である。音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24とを基に、シフト発話区間音声データ27を生成し、出力する。置換音声データ表24の1行目の発話終了時刻には「2.3」が記載され、シフト量列には「0.0」が記載されていることから、音声データシフト部25は入力された発話区間音声データ15の2.3秒以降の音声データをすべて、正の方向に0.0秒シフトする。
FIG. 21 is a diagram illustrating a processing example of the audio data shift processing S6 in the third embodiment. The voice data shift
図22は、本第3実施形態における音声データ置換処理S7の処理例を示す図である。音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に、置換履歴表28と変換用音声データ8を生成し、出力する。置換音声データ表第1行の「発話終了時刻」列には「2.3」が、「置換部音声データ長」列には「0.1」が記載されているため、シフト発話区間音声データ27の内、2.0秒から2.2秒の音声データを、無音と対応する音声データに置換し、更に2.2秒から2.3秒の音声データを、置換音声データ表第1行の「置換部音声データ」列に格納される置換部音声データ23「タイ」に置換する。
FIG. 22 is a diagram illustrating a processing example of the audio data replacement processing S7 in the third embodiment. The voice
以上のように本第3実施形態によれば、置き換えたい音声以外の部分の音声データに対する処理が不要となり、音声データの置換処理を簡略化することができる。 As described above, according to the third embodiment, processing for audio data other than the audio to be replaced becomes unnecessary, and the audio data replacement processing can be simplified.
以上に述べたように、本開示によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、本開示は、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。 As described above, according to the present disclosure, the possibility of leakage of confidential information to the outside when transmitting utterance voice data to the voice recognition server is reduced, and voice recognition / text conversion is performed with sufficient accuracy. be able to. In addition, the present disclosure can reduce the load of speech recognition / text processing performed by the internal information processing terminal, and can ensure the processing speed.
本開示は、音声データをテキスト化する際に、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができ、なおかつ、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができるデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムとして有用である。 The present disclosure reduces the possibility of leakage of confidential information to the outside when transmitting utterance voice data to the voice recognition server when voice data is converted into text, and performs voice recognition / text conversion with sufficient accuracy. Data processing apparatus, data processing system, data processing method, and data that can reduce the load of voice recognition / text processing performed by an internal information processing terminal and can ensure processing speed It is useful as a processing program.
1 音声処理システム
2 音声認識が行われる場所
3 音声入力処理部
4 表示部
5 音声認識発話者
6 発話音声
7 データ処理装置
8 変換用音声データ
9 ネットワーク
10 音声認識サーバ
11 テキストデータ
12 操作部
13 収音音声データ
14 発話区間検出部
15 発話区間音声データ
16 特定音声データ検出部
17 発話時刻検出部
18 組み合わせ記憶部
19 組み合わせ表
20 特定部音声データ
21 特定情報発話時刻表
22 置換音声合成部
23 置換部音声データ
24 置換音声データ表
25 音声データシフト部
26 音声データ置換部
27 シフト発話区間音声データ
28 置換履歴表
29 置換履歴記憶部
30 通信部
31 テキストデータ逆置換部
32 認識結果
DESCRIPTION OF
Claims (20)
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備えるデータ処理装置。 A data processing device that outputs a recognition result of collected sound data,
An audio data replacement unit that replaces the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputs the converted audio data;
A communication unit that transmits the voice data for conversion to a voice recognition server and receives text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement unit that outputs as a recognition result of the collected sound data;
A data processing apparatus comprising:
前記置換後テキストデータから前記置換部音声データを音声合成して前記音声データ置換部に出力する置換音声合成部と、
をさらに備える、
請求項1に記載のデータ処理装置。 A combination storage unit for storing a combination of the pre-replacement text data corresponding to the specific unit audio data and the post-replacement text data;
A replacement speech synthesizer that synthesizes the replacement unit speech data from the replaced text data and outputs the synthesized speech data to the speech data replacement unit;
Further comprising
The data processing apparatus according to claim 1.
前記置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフト部と、
をさらに備える、
請求項1または請求項2に記載のデータ処理装置。 An utterance time detection unit for detecting an utterance start time and an utterance end time of the specific unit audio data;
The speech data shift unit that shifts the speech end time and the speech data after the speech end time according to the speech time of the replacement unit speech data;
Further comprising
The data processing apparatus according to claim 1 or 2.
請求項3に記載のデータ処理装置。 The voice data shift unit sets the utterance start time of the replacement unit voice data as the utterance start time of the specific unit voice data.
The data processing apparatus according to claim 3.
請求項4に記載のデータ処理装置。 The voice data shift unit calculates the utterance end time of the replacement unit voice data from the utterance start time and the utterance time of the replacement unit voice data, and determines the utterance start time of the voice data following the replacement unit voice data. , Shift after the calculated utterance end time,
The data processing apparatus according to claim 4.
請求項3に記載のデータ処理装置。 The voice data shift unit is configured such that when the utterance time of the replacement unit voice data is equal to or shorter than the utterance time of the specific unit voice data, the utterance end time of the replacement unit voice data becomes the utterance end time of the specific unit voice data. , Shifting the utterance start time of the replacement unit voice data,
The data processing apparatus according to claim 3.
請求項1に記載のデータ処理装置。 An operation unit for editing a combination of the pre-replacement text data corresponding to the specific unit audio data and the post-replacement text data;
The data processing apparatus according to claim 1.
請求項3に記載のデータ処理装置。 The audio data shift unit generates the replacement unit audio data having the same length as the specific unit audio data.
The data processing apparatus according to claim 3.
請求項1に記載のデータ処理装置。 The voice data replacement unit further includes a replacement history storage unit that stores a history of replacing the specific unit voice data with the replacement unit voice data.
The data processing apparatus according to claim 1.
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備えるデータ処理システム。 A data processing system that outputs a recognition result of collected sound data,
An audio data replacement unit that replaces the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputs the converted audio data;
A communication unit that transmits the voice data for conversion to a voice recognition server and receives text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement unit that outputs as a recognition result of the collected sound data;
A data processing system comprising:
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力する音声データ置換ステップと、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信ステップと、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換ステップと、
を備えるデータ処理方法。 A data processing method for outputting a recognition result of collected sound data,
A voice data replacement step of replacing the specific part voice data included in the collected voice data with replacement voice data different from the specific part voice data and outputting the voice data for conversion;
A communication step of transmitting the voice data for conversion to a voice recognition server and receiving text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, extract post-replacement text data corresponding to the replacement unit speech data, and replace the post-replacement text data with pre-replacement text data corresponding to the specific unit speech data A text data reverse replacement step for outputting the collected sound data as a recognition result;
A data processing method comprising:
前記置換後テキストデータから前記置換部音声データを音声合成して音声データ置換部に出力する置換音声合成ステップと、
をさらに備える、
請求項11に記載のデータ処理方法。 A combination storage step of storing a combination of the pre-replacement text data corresponding to the specific speech data and the post-replacement text data;
A replacement speech synthesis step of synthesizing the replacement unit speech data from the post-substitution text data and outputting the synthesized speech data to the speech data replacement unit;
Further comprising
The data processing method according to claim 11.
前記置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフトステップと、
をさらに備える、
請求項11または請求項12に記載のデータ処理方法。 An utterance time detection step of detecting an utterance start time and an utterance end time of the specific part voice data;
A speech data shift step for shifting the speech end time and the speech data after the speech end time according to the speech time of the replacement unit speech data;
Further comprising
The data processing method according to claim 11 or 12.
請求項13に記載のデータ処理方法。 In the voice data shift step, the utterance start time of the replacement unit voice data is set as the utterance start time of the specific unit voice data.
The data processing method according to claim 13.
請求項14に記載のデータ処理方法。 The voice data shift step calculates the utterance end time of the replacement unit voice data from the utterance start time and the utterance time of the replacement unit voice data, and sets the utterance start time of the voice data following the replacement unit voice data. , Shift after the calculated utterance end time,
The data processing method according to claim 14.
請求項13に記載のデータ処理方法。 In the voice data shift step, when the utterance time of the replacement part voice data is equal to or shorter than the utterance time of the specific part voice data, the utterance end time of the replacement part voice data becomes the utterance end time of the specific part voice data. , Shifting the utterance start time of the replacement unit voice data,
The data processing method according to claim 13.
請求項11に記載のデータ処理方法。 An operation step of editing a combination of the pre-replacement text data corresponding to the specific part audio data and the post-replacement text data;
The data processing method according to claim 11.
請求項13に記載のデータ処理方法。 The voice data shift step generates the replacement unit voice data having the same length as the specific unit voice data.
The data processing method according to claim 13.
請求項11に記載のデータ処理方法。 The voice data replacement step further includes a replacement history storage step of storing a history of replacing the specific unit voice data with the replacement unit voice data.
The data processing method according to claim 11.
前記データ処理装置のコンピュータに対して、
前記収音音声データに含まれる特定部音声データを、前記特定部音声データとは異なる置換部音声データに置換し、変換用音声データとして出力させる処理と、
前記変換用音声データを音声認識サーバへ送信させ、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信させる処理と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出させ、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力させる処理と、
を実行させるデータ処理プログラム。 A data processing program executed in a data processing device that outputs a recognition result of collected sound data,
For the computer of the data processing device,
A process of replacing the specific unit audio data included in the collected audio data with replacement unit audio data different from the specific unit audio data and outputting the converted audio data as conversion audio data;
Processing for transmitting the voice data for conversion to a voice recognition server and receiving text data converted from the voice data for conversion from the voice recognition server;
Of the text data input from the speech recognition server, the post-replacement text data corresponding to the replacement unit speech data is extracted, and the post-replacement text data is replaced with the pre-replacement text data corresponding to the specific unit speech data. Processing to output the collected sound data as a recognition result;
Data processing program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016097117A JP6731609B2 (en) | 2016-05-13 | 2016-05-13 | Data processing device, data processing system, data processing method, and data processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016097117A JP6731609B2 (en) | 2016-05-13 | 2016-05-13 | Data processing device, data processing system, data processing method, and data processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017203953A true JP2017203953A (en) | 2017-11-16 |
JP6731609B2 JP6731609B2 (en) | 2020-07-29 |
Family
ID=60321546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016097117A Active JP6731609B2 (en) | 2016-05-13 | 2016-05-13 | Data processing device, data processing system, data processing method, and data processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6731609B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008107624A (en) * | 2006-10-26 | 2008-05-08 | Kddi Corp | Transcription system |
JP2010193391A (en) * | 2009-02-20 | 2010-09-02 | Oki Networks Co Ltd | Speech system, speech method, speech program, telephone terminal and exchange |
WO2011052412A1 (en) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
US20140207442A1 (en) * | 2013-01-24 | 2014-07-24 | Nuance Communications, Inc. | Protection of Private Information in a Client/Server Automatic Speech Recognition System |
JP2015088890A (en) * | 2013-10-30 | 2015-05-07 | コニカミノルタ株式会社 | Operation guide server, operation guide system, image formation apparatus and program |
-
2016
- 2016-05-13 JP JP2016097117A patent/JP6731609B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008107624A (en) * | 2006-10-26 | 2008-05-08 | Kddi Corp | Transcription system |
JP2010193391A (en) * | 2009-02-20 | 2010-09-02 | Oki Networks Co Ltd | Speech system, speech method, speech program, telephone terminal and exchange |
WO2011052412A1 (en) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
US20140207442A1 (en) * | 2013-01-24 | 2014-07-24 | Nuance Communications, Inc. | Protection of Private Information in a Client/Server Automatic Speech Recognition System |
JP2015088890A (en) * | 2013-10-30 | 2015-05-07 | コニカミノルタ株式会社 | Operation guide server, operation guide system, image formation apparatus and program |
Also Published As
Publication number | Publication date |
---|---|
JP6731609B2 (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4478939B2 (en) | Audio processing apparatus and computer program therefor | |
JP4946293B2 (en) | Speech enhancement device, speech enhancement program, and speech enhancement method | |
JP2010060850A (en) | Minute preparation support device, minute preparation support method, program for supporting minute preparation and minute preparation support system | |
JP6716300B2 (en) | Minutes generation device and minutes generation program | |
CN113498536A (en) | Electronic device and control method thereof | |
JP2013109061A (en) | Voice data retrieval system and program for the same | |
JP2014202848A (en) | Text generation device, method and program | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
US20130024192A1 (en) | Atmosphere expression word selection system, atmosphere expression word selection method, and program | |
JPWO2014203370A1 (en) | Speech synthesis dictionary creation device and speech synthesis dictionary creation method | |
JP6731609B2 (en) | Data processing device, data processing system, data processing method, and data processing program | |
JP5689774B2 (en) | Interactive information transmitting apparatus, interactive information transmitting method, and program | |
JP5818753B2 (en) | Spoken dialogue system and spoken dialogue method | |
JP2017198790A (en) | Speech evaluation device, speech evaluation method, method for producing teacher change information, and program | |
CN111429878B (en) | Self-adaptive voice synthesis method and device | |
JP2017187797A (en) | Text generation device, method, and program | |
JP4286583B2 (en) | Waveform dictionary creation support system and program | |
KR102267579B1 (en) | System of cloud-based conversion speech source to text and method performing the same | |
JP6342792B2 (en) | Speech recognition method, speech recognition apparatus, and speech recognition program | |
JP6984769B2 (en) | Information provision method and information provision system | |
JP2004294577A (en) | Method of converting character information into speech | |
JP5049310B2 (en) | Speech learning / synthesis system and speech learning / synthesis method | |
JP6389348B1 (en) | Voice data optimization system | |
JP2021117430A (en) | Utterance content display device, utterance content display system, utterance content display method, and utterance content display program | |
JP2018128576A (en) | Business determination device, business determination method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190313 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190625 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20191018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200617 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6731609 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |