JP6731609B2 - データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム - Google Patents

データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム Download PDF

Info

Publication number
JP6731609B2
JP6731609B2 JP2016097117A JP2016097117A JP6731609B2 JP 6731609 B2 JP6731609 B2 JP 6731609B2 JP 2016097117 A JP2016097117 A JP 2016097117A JP 2016097117 A JP2016097117 A JP 2016097117A JP 6731609 B2 JP6731609 B2 JP 6731609B2
Authority
JP
Japan
Prior art keywords
voice data
data
voice
replacement
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016097117A
Other languages
English (en)
Other versions
JP2017203953A (ja
Inventor
昭年 泉
昭年 泉
亮太 藤井
亮太 藤井
久裕 田中
久裕 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2016097117A priority Critical patent/JP6731609B2/ja
Publication of JP2017203953A publication Critical patent/JP2017203953A/ja
Application granted granted Critical
Publication of JP6731609B2 publication Critical patent/JP6731609B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声データをテキスト化するデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムに関する。
企業等の組織において、会議での話者の発言内容が記載される議事録を作成する場合、通常は書記を1名もしくは複数名割り当て、書記が聞いた内容を手動でテキスト化する方法がとられている。しかし、この方法ではコストがかかる、正確性に欠けるという問題から、音声認識装置を用い、自動で議事録を作成するシステムが提案されている(特許文献1参照)。この技術では、音声認識処理を各会議参加者が所有する情報処理端末で実施する。
特開平11−272663号公報
ところで、会議議事録等の話し言葉全体を十分な精度で音声認識・テキスト化するためには外部サーバ等の高い計算能力並びにそこに格納される十分に蓄積された学習データが必要である。したがって、会議議事録を十分な精度で音声認識・テキスト化するためには、外部サーバに会議参加者の発話音声データを送信し、音声認識・テキスト化する必要がある。しかしながら、発話内容に機密情報が含まれる場合、外部の音声認識サーバに発話音声データを送信すると機密情報が外部に漏洩する可能性がある。
本発明の目的は、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することが可能であり、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷の軽減と、処理スピードの確保をすることが可能なデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムを提供することである。
本開示のデータ処理装置は、
収音音声データの認識結果を出力するデータ処理装置であって、
前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出部と、
前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフト部と、
前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備え
前記音声データシフト部は、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする。
本開示のデータ処理システムは、
収音音声データの認識結果を出力するデータ処理システムであって、
前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出部と、
前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフト部と、
前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データ
に対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
を備え
前記音声データシフト部は、前記特定部音声データと同じ長さを有する前記置換部音声データを生成する。
本開示のデータ処理方法は、
収音音声データの認識結果を出力するデータ処理方法であって、
前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出ステップと、
前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフトステップと、
前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換ステップと、
前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信ステップと、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換ステップと、
を備え
前記音声データシフトステップは、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする。
本開示のデータ処理プログラムは、
収音音声データの認識結果を出力するデータ処理装置において実行されるデータ処理プログラムであって、
前記データ処理装置のコンピュータに対して、
前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する処理と、
前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする処理と、
前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力させる処理と、
前記変換用音声データを音声認識サーバへ送信させ、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信させる処理と、
前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出させ、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力させる処理と、
を実行させ
前記音声データをシフトする処理において、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする。
本発明によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、本開示は、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。
本第1実施形態の音声処理システムが設置された場所のイメージの一例を示す図 本第1実施形態の音声処理システムのシステム構成を示すブロック図 本第1実施形態の音声処理システムの音声データ置換に関する動作手順を説明するフローチャート 本第1実施形態の音声処理システムの音声認識サーバに関する動作手順の一例を説明するフローチャート 本第1実施形態の音声処理システムのテキストデータ逆置換に関する動作手順を示すフローチャート 本第1実施形態において音声入力処理部が実施する音声入力処理の例を示す図 本第1実施形態において発話区間検出部が実施する発話区間検出処理の例を示す図 本第1実施形態における組み合わせ表の例を示す図 本第1実施形態における特定音声データ検出処理の処理例を示す図 本第1実施形態における特定情報発話時刻表の例を示す図 本第1実施形態における置換音声データ表の例と置換音声合成処理の処理例を示す図 本第1実施形態における音声データシフト処理の処理例を示す図 本第1実施形態における音声データ置換処理の処理例を示す図 本第1実施形態における置換履歴表の例を示す図 本第1実施形態における変換用音声データ送信処理と変換用音声データ受信処理と音声データ変換処理とテキストデータ送信処理の処理例を示す図 本第1実施形態におけるテキストデータ逆置換処理と認識結果出力処理の処理例を示す図 本第2実施形態における置換音声データ表と置換音声合成処理の例を示す図 本第2実施形態における音声データシフト処理の処理例を示す図 本第2実施形態における音声データ置換処理の処理例を示す図 本第3実施形態における置換音声データ表と置換音声合成処理の例を示す図 本第3実施形態における音声データシフト処理の処理例を示す図 本第3実施形態における音声データ置換処理の処理例を示す図
以下、本発明に係る音声処理システムを具体的に示した実施形態(以下、「本実施形態」という)について、図面を参照して説明する。
(第1実施形態)
図1は、本第1実施形態の音声処理システムが設置された場所のイメージの一例を示す図である。図2は、本第1実施形態の音声処理システム1のシステム構成を示すブロック図である。図3は、本第1実施形態の音声処理システム1の音声データ置換に関する動作手順を説明するフローチャートである。図4は、本第1実施形態の音声処理システム1の音声認識サーバ10に関する動作手順の一例を説明するフローチャートである。図5は、音声処理システム1のテキストデータ逆置換に関する動作手順を示すフローチャートである。
図1〜図5に示す音声処理システム1は、音声認識が行われる場所2(例えば会議室、銀行カウンター、事務所)に設置された、音声入力処理部3(無指向性マイク、指向性マイク、ヘッドセットなど)を介して発話者が発話する音声を収音し、認識結果を表示部4に出力する。2人の会議参加者の内、1人が音声認識発話者5となり、音声入力処理部3が音声認識発話者5の発話音声6を収音している。発話音声6は、データ処理装置7によって変換用音声データ8に置換され、ネットワーク9を介して音声認識サーバ10に送信される。ネットワーク9は、有線ネットワーク(例えばイントラネット、インターネット)でも良いし、無線ネットワーク(例えば無線LAN(Local Area Network))でも良い。音声認識サーバ10は変換用音声データ8に対応するテキストデータ11をデータ処理装置7に送信する。データ処理装置7は、音声認識サーバ10より受信したテキストデータ11を、発話音声6に対応するテキストデータに逆置換して、その逆置換したテキストデータを、発話音声6の認識結果として表示部4に出力する。更に、データ処理装置7には、操作を行う操作部12が設置されてもよい。
音声入力処理部3は、音声認識発話者5が発話した発話音声6を収音し、収音音声データ13として発話区間検出部14に出力する(音声入力処理S1)。
発話区間検出部14は、入力された収音音声データ13から音声認識発話者5の発話区間前後の雑音部分を取り除いた、発話区間音声データ15を特定音声データ検出部16に出力する(発話区間検出処理S2)。
特定音声データ検出部16は、入力された発話区間音声データ15と、組み合わせ記憶部18に記憶されている組み合わせ表19とを基に、発話された特定部音声データ20を生成し、発話時刻検出部17に出力する(特定音声データ検出処理S3)。発話時刻検出部17は、特定部音声データ20の発話開始時刻と、発話終了時刻とが記載された、特定情報発話時刻表21を生成し置換音声合成部22に出力する。(発話時刻検出処理S4)。
置換音声合成部22は、入力された特定情報発話時刻表21を基に、置換部音声データ23を含む置換音声データ表24を生成し音声データシフト部25に出力する(置換音声合成処理S5)。
音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24とを基に、シフト発話区間音声データ27を生成し音声データ置換部26に出力する(音声データシフト処理S6)。音声データシフト処理S6により、置換後の音声データを含む変換用音声データ8が置換前と同様に自然な形で生成されるので、音声認識・テキスト化の精度を確保することができる。
音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に生成した置換履歴表28を置換履歴記憶部29に記憶し、変換用音声データ8を通信部30に出力する(音声データ置換処理S7)。置換履歴記憶部29を備えることにより、テキストデータから置換前テキストデータを作成する際の処理が容易になる。
通信部30は、入力された変換用音声データ8を、ネットワーク9を介して、音声認識サーバ10に送信する(変換用音声データ送信処理S8)。
音声認識サーバ10は、ネットワーク9を介して変換用音声データ8を受信し(変換用音声データ受信処理S11)、受信した変換用音声データ8をテキストデータ11に変換し(音声データ変換処理S12)、変換したテキストデータ11を、ネットワーク9に送信する(テキストデータ送信処理S13)。データ処理装置7の通信部30は、ネットワーク9を介して受信したテキストデータ11を、テキストデータ逆置換部31に出力する(テキストデータ受信処理S21)。
テキストデータ逆置換部31は、入力されたテキストデータ11と、置換履歴記憶部29に記憶されている置換履歴表28とを基に、本来得られるべき認識結果を生成し(テキストデータ逆置換処理S22)、その認識結果を表示部4に出力する(認識結果出力処理S23)。なお、操作部12が備わっている場合は、ユーザは操作部12を介して組み合わせ記憶部18に記憶されている組み合わせ表19を編集することで、置き換えたい特定音声をテキストにより適宜指定し、置き換え後の言葉を容易に指定することができる。操作部12は例えば、マウスやキーボードなどである。
図6は、本第1実施形態において音声入力処理部3が実施する音声入力処理S1の例である。音声入力処理部3は例えば、無指向性マイク、指向性マイク、ヘッドセットなどの収音可能な装置を備え、周囲の環境雑音音声や、音声認識発話者5の発話音声6を収音する。音声入力処理部3は、収音した音声をアナログ電気信号に変換し、更に前記アナログ電気信号をデジタル音声データに変換(パルス符号変調(PCM)など)し、収音音声データ13として出力する。
図7は、本第1実施形態において発話区間検出部14が実施する発話区間検出処理S2の例である。音声入力処理部3が出力した収音音声データ13は発話区間検出部14に入力される。音声認識発話者5が発話している時間帯前後の音声データには、環境雑音音声のみが含まれる。環境雑音音声部分は音声認識を行う必要がないため、発話区間検出部14は収音音声データ13の特徴(波形振幅、周波数帯域など)から収音音声データ13の内、音声認識発話者5が発話した区間の音声データを発話区間音声データ15として切り出し、それを出力する。
図8は、本第1実施形態における組み合わせ表19の例を示す図である。組み合わせ表19は、組み合わせID列、置換前テキストデータ列および置換後テキストデータ列から構成される。組み合わせID列には、組み合わせを一意に識別するための識別番号が記載される。置換前テキストデータ列には、発話区間音声データ15内の特定部音声データ20を検出するために、特定音声データ検出部16が検出する短い語又はフレーズが記載される。置換後テキストデータ列には、置換音声合成部22が置換部音声データ23を生成するために参照する置換音声データ表24を作成するための情報が記載される。
組み合わせ表19に記載される組み合わせすべてにおいて、置換前テキストデータ列と置換後テキストデータ列には、音声データ置換部26が収音音声データ13から変換用音声データ8を出力する場合に、変換用音声データ8内の文章の文脈が不自然にならないよう、記載する必要がある。例えば、「福岡支店」を「サウジアラビア支店」に置換した変換用音声データ8の文章は自然であるが、「福岡支店」を「1000支店」に置換した変換用音声データ8の文章は不自然である。変換用音声データ8の文脈が不自然な場合、音声認識サーバ10の処理にて一部の不自然な文脈が、音声認識サーバ10が出力するテキストデータ11全体に影響する可能性がある。
例えば組み合わせ表19の置換前テキストデータ列に、「[福岡]支店」と記載され、置換後テキストデータ列に、「サウジアラビア」と記載されている場合、その記載は、「福岡支店」という発話に対応する特定部音声データ20を「サウジアラビア支店」という発話に対応する置換部音声データ23に置換する、ということを意味する。また、例えば置換前音声テキストデータ列に「売り上げは[*]円」と記載され、置換後テキストデータ列に、「ランダム値(1、10000)」と記載されている場合、その記載は、「売り上げは1億円」や「売り上げは5000万円」等の発話に対応する特定部音声データ20を「売り上げは1000円」等の発話に対応する置換部音声データ23に置換される、ということを意味する。ここで、「[*]」は任意の発話内容を意味し、「ランダム値(1、10000)」は1から10000までの間の整数がランダムに選択されることを意味する。
図9は、本第1実施形態における特定音声データ検出処理S3の処理例を示す図である。特定音声データ検出処理S3では、特定部音声データ20を含む発話区間音声データ15と組み合わせ表19とが、特定音声データ検出部16および発話時刻検出部17に入力される。特定音声データ検出部16は、発話区間音声データ15から特定部音声データ20を検出する。発話時刻検出部17は、算出した発話開始時刻と発話終了時刻、組み合わせ表19の組み合わせID、置換前テキストデータおよび置換後テキストデータを含む特定情報発話時刻表21を出力する。
図10は、本第1実施形態における特定情報発話時刻表21の例を示す図である。
特定情報発話時刻表21は、組み合わせID列、置換前テキストデータ列、置換後テキストデータ列、発話開始時刻列および発話終了時刻列から構成される。
図10に示す特定情報発話時刻表21は、「2015年度の業績、福岡支店の売り上げは1億円という結果になった」という発話と対応する発話区間音声データ15を基に作成されたものである。特定情報発話時刻表21の組み合わせID「4」は、図8に示す組み合わせ表19の組み合わせID「4」に対応する。図10に示す特定情報発話時刻表21のID「4」が記載されている行の「置換前テキストデータ」列には、組み合わせ表19の置換前テキストデータ列に記載されている「[福岡]支店」の代わりに、その[ ]内に記載されている「福岡」のみが記載され、「置換後テキストデータ」列には「サウジアラビア」が記載される。そして、組み合わせID「4」が記載されている行の「発話開始時刻」および「発話終了時刻」の各列欄には、算出した「福岡」の発話開始時刻「2.0」と発話終了時刻「2.3」が、それぞれ記載される。このようにして、特定情報発話時刻表21のID「4」が記載されている行は生成される。
組み合わせID「4」と同様に、図10に示す特定情報発話時刻表21の組み合わせID「1」は、図8に示す組み合わせ表19の組み合わせID「1」に対応する。図10に示す特定情報発話時刻表21のID「1」が記載されている行の「置換前テキストデータ」列には、組み合わせ表19の置換前テキストデータ列に記載されている「売り上げは[*]円」(ここでは*=1億と検知)の代わりに、その[ ]内で検知した「1億」のみが記載される。そして、図10に示す特定情報発話時刻表21の「置換後テキストデータ」列の欄には、組み合わせ表19の置換前テキストデータ列に記載されている「ランダム値(1、10000)」の代わりに、ランダム値として選ばれた「1000」が記載される。組み合わせID「1」が記載されている行の「発話開始時刻」および「発話終了時刻」の各列欄には、算出した「1億」の発話開始時刻「3.5」、発話終了時刻「3.7」が、それぞれ記載される。このようにして、特定情報発話時刻表21のID「1」が記載されている行は生成される。
図11は、本第1実施形態における置換音声データ表24と置換音声合成処理S5の処理例を示す図である。置換音声合成部22は、入力された特定情報発話時刻表21を基に、置換音声データ表24を生成し、出力する。置換音声データ表24の生成については後ほど説明する。生成された置換音声データ表24は、「置換部ID」列、「置換部音声データ内容」列、「発話開始時刻」列、「発話終了時刻」列、「置換部音声データ長」列、「シフト量」列、「置換部音声データ」列から構成される。「置換部ID」列には、置換部音声データ23を一意に識別するための識別番号が記載される。「置換部音声データ内容」列には、置換部音声データ23の発話内容が記載される。「発話開始時刻」列には、置換部音声データ23をシフト発話区間音声データ27に置換する際の置換開始位置が記載される。「発話終了時刻」列には、置換部音声データ23をシフト発話区間音声データ27に置換する際の置換終了位置が記載される。「置換部音声データ長」列には、置換部音声データ23の発話長が記載される。「シフト量」列には、音声データシフト処理S6にて、音声データをどれだけシフトするかを示す数値が記載される。「置換部音声データ」列には置換部音声データ23が格納される。
次に、置換音声データ表24の生成について、いくつかを例にとって説明する。
図11において、特定情報発話時刻表21が置換音声合成部22に入力されると、置換音声合成部22は、入力された特定情報発話時刻表21の1行目、すなわち、組み合わせID「4」行にある置換前テキストデータおよび置換後テキストデータに関する項目を、置換音声データ表24の1行目、すなわち、置換部ID「1」行にある各列に、それぞれ記載する。特定情報発話時刻表21の組み合わせID「4」行にある「置換後テキストデータ」列の「サウジアラビア」は、置換音声データ表24の置換部ID「1」行にある「置換部音声データ内容」列に記載される。特定情報発話時刻表21の組み合わせID「4」行の「発話開始時刻」列にある「2.0」は、置換音声データ表24の置換部ID「1」行にある「発話開始時刻」列に記載される。特定情報発話時刻表21の組み合わせID「4」行の「発話終了時刻」列にある「2.3」は、置換音声データ表24の置換部ID「1」行にある「発話終了時刻」列に記載される。置換部ID「1」行の「置換部音声データ」列には、「置換部音声データ内容」列に記載された「サウジアラビア」を、自然な話し速度で発話する音声の音データが、置換部音声データ23として格納される。そして、置換部ID「1」行の「置換部音声データ長」列には、その「サウジアラビア」の音データの長さである「0.5」が記入される。さらに、置換部ID「1」行の「シフト量」列には、所定の式、例えば置換部音声データ長−(発話終了時刻−発話開始時刻)から算出される値「0.2」が記入される。
1行目と同様に、置換音声合成部22は、入力された特定情報発話時刻表21の2行目、すなわち、組み合わせID「1」行にある置換前テキストデータおよび置換後テキストデータに関する項目を、置換音声データ表24の2行目、すなわち、置換部ID「2」行にある各列に、それぞれ記載する。特定情報発話時刻表21の組み合わせID「1」行にある「置換部テキストデータ」列の「1000」は、置換音声データ表24の置換部ID「2」行にある「置換部音声データ内容」列に記載される。ただし、置換音声データ表24の置換部ID「2」行にある「発話開始時刻」列には、特定情報発話時刻表21の組み合わせID「1」行の「発話開始時刻」列にある「3.5」に、置換部ID「1」行の「シフト量」列に記載された値「0.2」が加算された値「3.7」が記載される。これと同様に、置換音声データ表24の置換部ID「2」行にある「発話終了時刻」列には、特定情報発話時刻表21の組み合わせID「1」行の「発話終了時刻」列にある「3.7」に、置換部ID「1」行の「シフト量」列に記載された値「0.2」が加算された値「3.9」が記載される。置換部ID「2」行の「置換部音声データ」列には、「置換部音声データ内容」列に記載された「1000」を、自然な話し速度で発話する音声の音データが、置換部音声データ23として格納される。そして、置換部ID「2」行の「置換部音声データ長」列には、その「1000」の音データの長さである「0.1」が記入される。さらに、置換部ID「2」行の「シフト量」列には、所定の式、例えば置換部音声データ長−(発話終了時刻−発話開始時刻)から算出される値「−0.1」が記入される。
図12は、本第1実施形態における音声データシフト処理S6の処理例を示す図である。音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24を基に、シフト発話区間音声データ27を生成し出力する。音声データシフト部25に入力された置換音声データ表24の1行目の発話終了時刻には「2.3」が記載され、シフト量列には「0.2」が記載されていることから、音声データシフト部25は、入力された発話区間音声データ15の2.3秒以降の音声データをすべて、正の方向に(すなわち後ろに)0.2秒シフトする。更に、音声データシフト部25に入力された置換音声データ表24の2行目の発話終了時刻には「3.9」が記載され、シフト量列には「−0.1」が記載されていることから、音声データシフト部25は入力された発話区間音声データ15の3.9秒以降の音声データをすべて、負の方向に(すなわち前に)0.1秒シフトする。こうして音声データシフト部25は、前記音声データシフト処理S6が終了した後の音声データを、シフト発話区間音声データ27として出力する。
これにより置換後の音声データを含む交換用音声データ8が、置換前と同様に自然な形で生成されるので、音声認識・テキスト化の精度を確保することができる。
図13は、本第1実施形態における音声データ置換処理S7の処理例を示す図である。音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に、置換履歴表28と変換用音声データ8を生成し、出力する。置換音声データ表第1行の発話開始時刻列には「2.0」が、置換部音声データ長列には「0.5」が記載されているため、シフト発話区間音声データ27の内、2.0秒から2.5秒の音声データを、置換音声データ表24の第1行の置換部音声データ列に格納されている置換部音声データ23の音声データに置換する。置換音声データ表24第2行についても同様の処理を行い、置換後の音声データを変換用音声データ8として出力する。
図14は、本第1実施形態における置換履歴表28の例を示す図である。置換履歴表28は「置換前」列と「置換後」列から構成される。例えば、置換履歴表28の第1行の「置換前」列に「福岡」が、「置換後」列に「サウジアラビア」が記載され、置換履歴表28の第2行の「置換前」列に「1億」が、「置換後」列に「1000」が記載されている場合、シフト発話区間音声データ27の「福岡」に対応する特定部音声データ20が「サウジアラビア」に対応する置換部音声データ23に置換され、シフト発話区間音声データの27「1億」に対応する特定部音声データ20が「1000」に対応する置換部音声データ23に置換された変換用音声データ8が生成されたことを意味する。
図15は、本第1実施形態における変換用音声データ送信処理S8と変換用音声データ受信処理S11と音声データ変換処理S12とテキストデータ送信処理S13の処理例を示す図である。図15において、通信部30は、入力された変換用音声データ8をデータ処理装置7の外部(例えば音声認識サーバ10)に送信する。変換用音声データ8を受信した音声認識サーバ10は、変換用音声データ8を対応するテキストデータ11に変換し、通信部30に出力する。例えば、「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」という変換用音声データ8が入力された場合、「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」という、変換されたテキストデータ11を通信部30に出力する。通信部30は、入力されたテキストデータ11をデータ処理装置7に送信する。通信部30と音声認識サーバ10の間の送受信経路として、Ethernet、USB、RC232(シリアル通信)などが挙げられる。
図16は、本第1実施形態におけるテキストデータ逆置換処理S22と認識結果出力処理S23の処理例を示す図である。テキストデータ逆置換部31は、入力されたテキストデータ11と置換履歴表28とを基に、本来得られるべき認識結果32を出力する。入力されたテキストデータ11が「2015年度の業績、サウジアラビア支店の売り上げは1000円という結果になった」であり、置換履歴表28の1行目の「置換前」列に「福岡」が、「置換後」列に「サウジアラビア」が、2行目の「置換前」列に「1億」が、「置換後」列に「1000」が記載されている場合、テキストデータ逆置換部31は、入力されたテキストデータ11に含まれる「サウジアラビア」を「福岡」に、「1000」を「1億」に逆置換し、「2015年度の業績、福岡支店の売り上げは1億円という結果になった」という、本来得られるべき認識結果32を生成し、表示部4に出力する。表示部4は例えば、ディスプレイ機器や、プリンタ機器などである。
なお、ユーザは、操作部12を介して、組み合わせ表19の編集もしくは、新規作成を行うことで、使用状況に応じた組み合わせ表19を作成することができる。これによりユーザは、置き換えたい特定部音声データ20をテキストにより適宜指定し、置き換え後の言葉を容易に指定することができる。
以上のように、本第1実施形態によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。
(第2実施形態)
本第2実施形態については、第1実施形態と異なる部分のみを説明する。それ以外の点については、第1実施形態と同様である。
図17は、本第2実施形態における置換音声データ表24と置換音声合成処理S5の例を示す図である。図17において、本第2実施形態が第1実施形態と異なる点は、置換部音声データ長の算出方法と置換部音声データ23の音声データの生成方法である。置換音声合成部22は、入力された特定情報発話時刻表21を基に置換データ表を生成し出力するが、その際、第1実施形態の図11、図12とは異なり、置換音声データ表24の各行について、発話終了時刻から発話開始時刻を差し引いた値を、置換部音声データ長として記載する。具体的には、置換音声合成部22は、置換部ID「1」の行にある「置換部音声データ内容」列「サウジアラビア」の「発話終了時刻」列の値「2.3」から「発話開始時刻」列の値「2.0」を差し引いた値「0.3」を、置換部音声データ長列に格納する。そして、置換音声合成部22は、「0.3」秒間かけて「サウジアラビア」と発話される音声に対応する音声データを、置換部音声データ23として生成し、「置換部音声データ」列に格納する。置換音声データ表24の第2行についても、第1行と同様の処理を行う。
なお、本第2実施形態の「シフト量」列には、第1行、第2行とも、所定の式(置換部音声データ長−(発話終了時刻−発話開始時刻))から算出される値「0」が記入されるので、シフト処理が行われないこととなる。図18は、本第2実施形態における音声データシフト処理S6の処理例を示す図であり、図19は、本第2実施形態における音声データ置換処理S7の処理例を示す図である。図18、図19に示すように、「福岡」に代わる「サウジアラビア」、「1億」に代わる「1000」の置換部音声データ23が、それぞれ、「福岡」「1億」の各発話開始時刻、発話終了時刻を変えないよう、シフト処理を行わずに同じ長さで生成される。
以上のように第2実施形態によれば、置き換えたい音声以外の部分の音声データに対する処理が不要となり、音声データの置換処理を簡略化することができる。
(第3実施形態)
本第3実施形態については、第1実施形態又は第2実施形態と異なる部分のみを説明する。それ以外の点については、第1実施形態又は第2実施形態と同様である。
図20は、本第3実施形態における置換音声データ表24と置換音声合成処理S5の例を示す図である。図20は、第1実施形態及び第2実施形態での「福岡」を「サウジアラビア」に置き換える場合とは異なり、「福岡」を「タイ」に置き換える例である。置換音声合成部22は、入力された特定情報発話時刻表21を基に置換音声データ表24を生成し出力する点では、第1実施形態及び第2実施形態と同様である。そして、置換音声合成部22が、特定情報発話時刻表21の「置換前テキストデータ」列にある「福岡」の「発話開始時刻」列に記載されている値「2.0」及びその「発話終了時刻」列に記載されている値「2.3」を、それぞれ、置換音声データ表24の「発話開始時刻」列及び「発話終了時刻」列に、それぞれ記入する点についても、第1実施形態及び第2実施形態と同様である。
ただし、本第3実施形態の置換音声合成部22は、第2実施の形態の図17、図18とは異なり、特定情報発話時刻表21の「組み合わせID」列「10」が記載されている1行目の「置換後テキストデータ」列にある記載項目「タイ」を、置換音声データ表24の「置換部ID」列「1」が記載されている1行目の「置換部音声データ内容」列に記入する。そして、本第3実施形態の置換音声合成部22は、「置換後テキストデータ」列にある記載項目「タイ」が自然な話し速度で発話される音声に対応する置換部音声データ23を生成して「置換部音声データ」列に格納し、その発話長さである値「0.1」を「置換部音声データ長」列に記入する。
図21は、本第3実施形態における音声データシフト処理S6の処理例を示す図である。音声データシフト部25は、入力された発話区間音声データ15と置換音声データ表24とを基に、シフト発話区間音声データ27を生成し、出力する。置換音声データ表24の1行目の発話終了時刻には「2.3」が記載され、シフト量列には「0.0」が記載されていることから、音声データシフト部25は入力された発話区間音声データ15の2.3秒以降の音声データをすべて、正の方向に0.0秒シフトする。
図22は、本第3実施形態における音声データ置換処理S7の処理例を示す図である。音声データ置換部26は、入力されたシフト発話区間音声データ27と置換音声データ表24とを基に、置換履歴表28と変換用音声データ8を生成し、出力する。置換音声データ表第1行の「発話終了時刻」列には「2.3」が、「置換部音声データ長」列には「0.1」が記載されているため、シフト発話区間音声データ27の内、2.0秒から2.2秒の音声データを、無音と対応する音声データに置換し、更に2.2秒から2.3秒の音声データを、置換音声データ表第1行の「置換部音声データ」列に格納される置換部音声データ23「タイ」に置換する。
以上のように本第3実施形態によれば、置き換えたい音声以外の部分の音声データに対する処理が不要となり、音声データの置換処理を簡略化することができる。
以上に述べたように、本開示によれば、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができる。なおかつ、本開示は、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができる。
本開示は、音声データをテキスト化する際に、音声認識サーバに発話音声データを送信する際の機密情報の外部への漏洩の可能性を低減し、かつ十分な精度で音声認識・テキスト化することができ、なおかつ、内部の情報処理端末が行う音声認識・テキスト化の処理の負荷を軽減することができ、処理スピードを確保することができるデータ処理装置、データ処理システム、データ処理方法及びデータ処理プログラムとして有用である。
1 音声処理システム
2 音声認識が行われる場所
3 音声入力処理部
4 表示部
5 音声認識発話者
6 発話音声
7 データ処理装置
8 変換用音声データ
9 ネットワーク
10 音声認識サーバ
11 テキストデータ
12 操作部
13 収音音声データ
14 発話区間検出部
15 発話区間音声データ
16 特定音声データ検出部
17 発話時刻検出部
18 組み合わせ記憶部
19 組み合わせ表
20 特定部音声データ
21 特定情報発話時刻表
22 置換音声合成部
23 置換部音声データ
24 置換音声データ表
25 音声データシフト部
26 音声データ置換部
27 シフト発話区間音声データ
28 置換履歴表
29 置換履歴記憶部
30 通信部
31 テキストデータ逆置換部
32 認識結果

Claims (14)

  1. 収音音声データの認識結果を出力するデータ処理装置であって、
    前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出部と、
    前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフト部と、
    前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
    前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
    前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
    を備え
    前記音声データシフト部は、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする、
    データ処理装置。
  2. 収音音声データの認識結果を出力するデータ処理装置であって、
    前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出部と、
    前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフト部と、
    前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
    前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
    前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
    を備え、
    前記音声データシフト部は、前記特定部音声データと同じ長さを有する前記置換部音声データを生成する、
    データ処理装置。
  3. 前記特定部音声データに対応する置換前テキストデータと、前記置換後テキストデータとの組み合わせを記憶させる組み合わせ記憶部と、
    前記置換後テキストデータから前記置換部音声データを音声合成して前記音声データ置換部に出力する置換音声合成部と、
    をさらに備える、
    請求項1または2に記載のデータ処理装置。
  4. 前記特定部音声データに対応する置換前テキストデータと、前記置換後テキストデータとの組み合わせを編集する操作部をさらに備える、
    請求項1または2に記載のデータ処理装置。
  5. 前記音声データ置換部が前記特定部音声データを前記置換部音声データに置換した履歴を記憶する置換履歴記憶部をさらに備える、
    請求項1または3に記載のデータ処理装置。
  6. 収音音声データの認識結果を出力するデータ処理システムであって、
    前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出部と、
    前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフト部と、
    前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
    前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
    前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
    を備え、
    前記音声データシフト部は、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする、
    データ処理システム。
  7. 収音音声データの認識結果を出力するデータ処理システムであって、
    前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出部と、
    前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフト部と、
    前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換部と、
    前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信部と、
    前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データ
    に対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換部と、
    を備え
    前記音声データシフト部は、前記特定部音声データと同じ長さを有する前記置換部音声データを生成する、
    データ処理システム。
  8. 収音音声データの認識結果を出力するデータ処理方法であって、
    前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出ステップと、
    前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフトステップと、
    前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換ステップと、
    前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信ステップと、
    前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換ステップと、
    を備え
    前記音声データシフトステップは、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする、
    データ処理方法。
  9. 収音音声データの認識結果を出力するデータ処理方法であって、
    前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する発話時刻検出ステップと、
    前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする音声データシフトステップと、
    前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力する音声データ置換ステップと、
    前記変換用音声データを音声認識サーバへ送信し、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信する通信ステップと、
    前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出し、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力するテキストデータ逆置換ステップと、
    を備え、
    前記音声データシフトステップは、前記特定部音声データと同じ長さを有する前記置換部音声データを生成する、
    データ処理方法。
  10. 前記特定音声データに対応する置換前テキストデータと、前記置換後テキストデータとの組み合わせを記憶させる組み合わせ記憶ステップと、
    前記置換後テキストデータから前記置換部音声データを音声合成して音声データ置換部に出力する置換音声合成ステップと、
    をさらに備える、
    請求項8または9に記載のデータ処理方法。
  11. 前記特定部音声データに対応する置換前テキストデータと、前記置換後テキストデータとの組み合わせを編集する操作ステップをさらに備える、
    請求項8または9に記載のデータ処理方法。
  12. 前記音声データ置換ステップにおいて、前記特定部音声データを前記置換部音声データに置換した履歴を記憶する置換履歴記憶ステップをさらに備える、
    請求項8または9に記載のデータ処理方法。
  13. 収音音声データの認識結果を出力するデータ処理装置において実行されるデータ処理プログラムであって、
    前記データ処理装置のコンピュータに対して、
    前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する処理と、
    前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする処理と、
    前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力させる処理と、
    前記変換用音声データを音声認識サーバへ送信させ、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信させる処理と、
    前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出させ、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力させる処理と、
    を実行させ
    前記音声データをシフトする処理において、前記置換部音声データの発話時間が前記特定部音声データの発話時間以下の場合、前記置換部音声データの発話終了時刻が前記特定部音声データの発話終了時刻となるよう、前記置換部音声データの発話開始時刻をシフトする、
    データ処理プログラム。
  14. 収音音声データの認識結果を出力するデータ処理装置において実行されるデータ処理プログラムであって、
    前記データ処理装置のコンピュータに対して、
    前記収音音声データに含まれる特定部音声データの発話開始時刻及び発話終了時刻を検出する処理と、
    前記特定部音声データとは異なる置換部音声データの発話時間に応じて、前記発話終了時刻と、前記発話終了時刻後の音声データをシフトする処理と、
    前記特定部音声データを前記置換部音声データに置換し、変換用音声データとして出力させる処理と、
    前記変換用音声データを音声認識サーバへ送信させ、前記変換用音声データから変換されたテキストデータを前記音声認識サーバから受信させる処理と、
    前記音声認識サーバから入力された前記テキストデータのうち、前記置換部音声データに対応する置換後テキストデータを抽出させ、前記特定部音声データに対応する置換前テキストデータへ前記置換後テキストデータを置き換えて、前記収音音声データの認識結果として出力させる処理と、
    を実行させ、
    前記音声データをシフトする処理において、前記特定部音声データと同じ長さを有する前記置換部音声データを生成する、
    データ処理プログラム。
JP2016097117A 2016-05-13 2016-05-13 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム Active JP6731609B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016097117A JP6731609B2 (ja) 2016-05-13 2016-05-13 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016097117A JP6731609B2 (ja) 2016-05-13 2016-05-13 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム

Publications (2)

Publication Number Publication Date
JP2017203953A JP2017203953A (ja) 2017-11-16
JP6731609B2 true JP6731609B2 (ja) 2020-07-29

Family

ID=60321546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016097117A Active JP6731609B2 (ja) 2016-05-13 2016-05-13 データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム

Country Status (1)

Country Link
JP (1) JP6731609B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008107624A (ja) * 2006-10-26 2008-05-08 Kddi Corp 文字起こしシステム
JP5175231B2 (ja) * 2009-02-20 2013-04-03 沖電気工業株式会社 通話システム、通話方法、通話プログラム、電話端末及び交換機
US20120215528A1 (en) * 2009-10-28 2012-08-23 Nec Corporation Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
US9131369B2 (en) * 2013-01-24 2015-09-08 Nuance Communications, Inc. Protection of private information in a client/server automatic speech recognition system
JP6229433B2 (ja) * 2013-10-30 2017-11-15 コニカミノルタ株式会社 操作案内サーバ、操作案内システム、画像形成装置およびプログラム

Also Published As

Publication number Publication date
JP2017203953A (ja) 2017-11-16

Similar Documents

Publication Publication Date Title
CN101145346B (zh) 语音增强设备和语音记录设备及方法
US20090012793A1 (en) Text-to-speech assist for portable communication devices
JP4769673B2 (ja) オーディオ信号補間方法及びオーディオ信号補間装置
JPH07191690A (ja) 議事録作成装置及び多地点議事録作成システム
JP2010060850A (ja) 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム
JP2014202848A (ja) テキスト生成装置、方法、及びプログラム
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP6731609B2 (ja) データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP3159930B2 (ja) 音声処理装置のピッチ抽出方法
JP6499228B2 (ja) テキスト生成装置、方法、及びプログラム
JP4910920B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
CN114648989A (zh) 在电子设备中实施的语音信息处理方法、装置及存储介质
JP5104200B2 (ja) ネットワーク接続装置
JP4713180B2 (ja) 音響信号からの情報の抽出装置
JP4713181B2 (ja) 音響信号に対する情報の埋め込み装置、音響信号からの情報の抽出装置、および音響信号再生装置
JP2004294577A (ja) 文字情報音声変換方法
JP4286583B2 (ja) 波形辞書作成支援システムおよびプログラム
JP5049310B2 (ja) 音声学習・合成システム及び音声学習・合成方法
JP5387095B2 (ja) 情報処理装置及び情報処理方法
JP5212715B2 (ja) 音響信号からの情報の抽出装置
JP6389348B1 (ja) 音声データ最適化システム
JP4973417B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
JP4968468B2 (ja) 音響信号に対する情報の埋め込み装置および音響信号からの情報の抽出装置
JP5326539B2 (ja) 留守番電話システム、留守番電話サービスサーバ及び留守番電話サービス方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190313

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190625

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200617

R151 Written notification of patent or utility model registration

Ref document number: 6731609

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151