JP6389348B1 - 音声データ最適化システム - Google Patents
音声データ最適化システム Download PDFInfo
- Publication number
- JP6389348B1 JP6389348B1 JP2018056847A JP2018056847A JP6389348B1 JP 6389348 B1 JP6389348 B1 JP 6389348B1 JP 2018056847 A JP2018056847 A JP 2018056847A JP 2018056847 A JP2018056847 A JP 2018056847A JP 6389348 B1 JP6389348 B1 JP 6389348B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- utterance
- speech
- block
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 66
- 238000013507 mapping Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000003672 processing method Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
この記録デバイスは、発話者の口述における音量や速度等を、数値化された音声品質情報として認識し、この音声品質情報が低い値として受信された際に、発話者にリアルタイムでフィードバック情報を発信する構成となっている。
こうすることで、発話者がフィードバック情報に即座に対応でき、音声品質情報の品質の低下を抑制することができる。
即ち、特許文献1に記載の記録デバイスに記録された発話内容には、発話者が発話していない箇所等、テキスト化において必要のない部分が含まれている可能性がある。これにより、発話者が、音声データの総時間に応じて費用が変動するテキスト化サービスを利用する場合に、無駄な費用が発生し、テキスト化する上での効率の悪化が懸念される。
発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備えることを特徴とする。
前記発話ブロック結合データに対応したテキストデータ及び前記テキストデータに付与されたテキスト時間情報を受付ける受付手段と、
前記発話時間情報及び前記テキスト時間情報に基づいて、前記各発話ブロック単一データと前記テキストデータとを対応付けるマッピング手段と、を備えることを特徴とする。
前記各データの総時間よりも大きい所定の単位時間の倍数の内、最も小さい倍数である基準倍数を決定し、
前記各データにおける前記基準倍数の合計値が最小となる前記組合せを決定し、
前記出力手段は、前記基準倍数の合計値が最小となる前記組合せに基づいて前記各データを出力することを特徴とする。
前記音声データは、発信音声データと受信音声データとを含み、
前記結合手段は、前記発信音声データと前記受信音声データそれぞれに付与された前記発話時間情報を元に、前記各発話ブロック単一データを経時的に結合することを特徴とする。
コンピュータを、発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、として機能させることを特徴とする。
発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備えることを特徴とする。
図1(a)における音声データ最適化システム1は、通話システム1aと、オペレーター端末1bと、オペレーター端末1bに接続された受信者通話部1cと、発信者通話部1dと、を備えており、それぞれがネットワークNを介して、相互に接続されている。
通話システム1aは、音声データを格納するクラウドCと、音声データの処理を行う音声データ最適化サーバPと、を有している。
図1(b)における音声データ最適化システム1は、通話システム1aと、オペレーター端末1bと、テキスト化サービス1eと、を備えており、それぞれがネットワークNを介して、相互に接続されている。
なお、取得された音声データは、クラウドCに格納されず、直接オペレーター端末1bや、他の記憶装置に格納される構成としても良い。また、音声データ最適化システム1とは別のシステムにより取得された音声データが、音声データ最適化システム1のクラウドCに格納される若しくは直接オペレーター端末1bや、他の記憶装置に格納される構成としても良い。
なお、図4〜図7に示す各音声データの横軸tは時刻、縦軸aは振幅(音量)を表している。本実施形態において、音声データの処理段階で生成される情報は、メモリ102に保持される。例えば、別途音声データ最適化サーバPと通信可能なデータベースを設け、このデータベースに処理段階で生成される情報を保持しても構わない。
なお、発話ブロック単一データの決定方法としては、例えば、縦軸aにおいて所定の閾値及び横軸tにおいて所定の経過時間を設定しておき、所定の閾値を超える音声データが、所定の経過時間持続した部分を発話ブロック単一データと決定する方法が考えられる。
また、所定の閾値を下回る音声データが、所定の経過時間持続した部分を無音部分と決定し、二つの無音部分の間に存在する音声データを一の発話ブロック単一データと決定する方法も考えられる。
また、所定の閾値を超えた際の、音声データD1全体の時系列におけるタイムスタンプを取得し、このタイムスタンプに基づいて、発話ブロック単一データを決定する方法も考えられる。
また、各発話ブロック識別情報d1a〜d1eには、付与されている各発話ブロック単一データD1a〜D1eの発話者を示す発話者情報S1a〜S1eが紐づけられている(図7(b)参照)。
なお、本実施形態においては、発話ブロック単一データD1aの、発話の開始時における横軸tの値を、音声データD1全体における発話開始時刻の基準値、即ち0としている(図7(b)参照)。
そして、図7(a)に示すように、付与された各発話ブロック識別情報d1a〜d1eの各発話時間情報V1a〜V1eに従い、時系列順となるように、各発話ブロック単一データD1a〜D1eを結合することで、発話ブロック結合データJ1を生成する。
また、このとき、音声データ最適化サーバPは、各発話ブロック単一データD1a〜D1eに、発話ブロック結合データJ1の時系列に沿って、発話の開始時刻から終了時刻までの横軸tの値を、結合後発話時間情報Y1〜Y5として付与する。
なお、各発話ブロック単一データD1a〜D1eを結合する順番は、必ずしも時系列順となるように結合する必要はなく、とのような順番であっても良い。
なお、各発話者情報S1a〜S1eにおいて、「In」は受信者、「Out」は発信者を示している。
ここで、各発話ブロック識別情報d1a〜d1eは、発話時間情報V1a〜V1eを有している他、各発話者情報S1a〜S1eが紐づいていることから、音声データ最適化サーバPは、上述した変換により、全体として図8(b)に示すようなマッピング表A3に示すような対応関係を、メモリ102に記憶する。
そして、受信者は、適宜オペレーター端末1bを介して、各個別音声データX1〜X5を取得する。
受信者は、画面上で直接各テキストデータT1a〜T1eの内容を閲覧できる他、再生ボタンb1の操作により、画面上で各個別音声データX1〜X5の発話内容を再生することができる。
また、受信者は、ダウンロードボタンb2により、各個別音声データX1〜X5を個別にオペレーター端末1bに保存することができる。
なお、図10〜図13に示す各音声データの横軸tは時刻、縦軸aは振幅(音量)を表している。
また、音声データD2は、音声データ最適化サーバPの生成手段2により、時系列に沿って、複数の発話ブロック単一データD2a〜D2cが生成されており、各発話ブロック単一データD2a〜D2cには、それぞれ発話ブロック識別情報d2a〜d2cが付与されている。
また、音声データD3は、音声データ最適化サーバPの生成手段2により、時系列に沿って、複数の発話ブロック単一データD3a〜D3cが生成されており、各発話ブロック単一データD3a〜D3cには、それぞれ発話ブロック識別情報d3a〜d3cが付与されている。
例えば、本実施例では、音声データ最適化サーバPは、発話ブロック結合データの総時間を、予め設定された所定の時間以上となるまで、複数の発話ブロック単一データの結合を行う。
こうすることで、音声データ最適化サーバPは、総時間が60(s)以上(70(s))の発話ブロック結合データJ4を生成する。
例えば、(i)の組合せは、結合されていない発話ブロック単一データD4a〜D4cが含まれていることを示している。また、(ii)の組合せは、発話ブロック単一データD4a及びD4bを結合した発話ブロック結合データと、発話ブロック単一データD4cと、が含まれていることを示している。
本実施形態では、例えば、テキスト化サービス1eが、15秒単位で課金されていく方式を採用している場合を想定する。
以下同様にして、発話ブロック単一データD4bの基準倍数は「30」、発話ブロック単一データD4cの基準倍数は「15」と決定される。
よって、(i)の組合せに含まれる各データについての基準倍数の合計値は、表Zの右列に示すように、「75」と決定される。
なお、この処理は、各発話ブロック単一データD4a〜D4cに個別に行うことや、音声データD4全体に対して行うことも、当然に可能である。
なお、この処理は、各発話ブロック単一データD4a〜D4cに個別に行うことや、音声データD4全体に対して行うことも、当然に可能である。
例えば、矢印hのように、波長を増大させることで、各発話ブロック単一データD4a〜D4cの発話速度を2/3倍速とした場合、音声データ最適化サーバPは、各発話ブロック識別情報d4a〜d4cが有する発話時間情報V4a〜V4c及び結合後発話時間情報Y4a〜Y4cを、3/2倍に変更することで、新たな発話時間情報V4a´〜V4c´及び結合後発話時間情報Y4a´〜Y4c´を生成する。
例えば、生成された全ての発話ブロック単一データを結合することにより生成された発話ブロック結合データの総時間が、予め設定された所定の時間に満たない場合には、音声データ最適化サーバPに、後述する発話速度調節手段9により、発話速度を遅くする処理を行わせる構成としても良い。
また、本実施形態に係る音声データ最適化システム1は、会議等3人以上の発話者が存在するような場面で取得された音声データに対しても、当然に適用される。
101 CPU
102 メモリ
103 記憶部
104 通信部
105 入力部
106 出力部
107 オペレーティングシステム
108 音声データ最適化プログラム
2 生成手段
3 結合手段
4 出力手段
5 受付手段
6 変換手段
7 マッピング手段
8 発話音量調節手段
9 発話速度調節手段
10 時間間隔変更手段
1a 通話システム
1b オペレーター端末
1c 受信者通話部
1d 発信者通話部
1e テキスト化サービス
D1〜D5 音声データ
D11 受信音声データ
D12 発信音声データ
D1a〜D1e、D2a〜D2e、D3a〜D3e、D4a〜D4e、D5a〜D5e 発話ブロック単一データ
d1a〜d1e、d2a〜d2e、d3a〜d3e、d4a〜d4e、d5a〜d5e 発話ブロック識別情報
V1a〜V1e、V1a´〜V1e´ 発話時間情報
Y1a〜Y1e、Y1a´〜Y1e´ 結合後発話時間情報
S1a〜S1e 発話者情報
T1a〜T1e テキストデータ
t1a〜t1e テキスト識別情報
J1〜J4 発話ブロック結合データ
A1〜A5 マッピング表
X1〜X5 個別音声データ
C クラウド
P 音声データ最適化サーバ
N ネットワーク
Z 表
Claims (9)
- 発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、単一の音声データである発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備え、
前記発話ブロック結合データに含まれる前記各発話ブロック単一データの開始時刻又は終了時刻の少なくとも何れか一方を、前記発話ブロック結合データの時系列に沿って、結合後発話時間情報として付与することを特徴とする音声データ最適化システム。 - 前記発話ブロック結合データに対応したテキストデータ及び前記テキストデータに付与されたテキスト時間情報を受付ける受付手段と、
前記結合後発話時間情報及び前記テキスト時間情報に基づいて、前記各発話ブロック単一データと前記テキストデータとを対応付けるマッピング手段と、を備えることを特徴とする、請求項1に記載の音声データ最適化システム。 - 前記結合手段は、結合する前記各発話ブロック単一データの数及び組み合わせの少なくとも何れか一方を変更することで、前記発話ブロック結合データの総時間を所定の時間以上に変更することを特徴とする、請求項1又2に記載の音声データ最適化システム。
- 前記音声データは、発信者と受信者との会話により取得され、発信者の発話内容が記録された発信音声データと、受信者の発話内容が記録された受信音声データとを含み、
前記結合手段は、前記発信音声データと前記受信音声データそれぞれに付与された前記発話時間情報を元に、前記各発話ブロック単一データを経時的に結合することを特徴とする、請求項1〜3の何れかに記載の音声データ最適化システム。 - 前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を調節する発話音量調節手段を備えることを特徴とする、請求項1〜4の何れかに記載の音声データ最適化システム。
- 前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を調節する発話速度調節手段を備えることを特徴とする、請求項1〜5の何れかに記載の音声データ最適化システム。
- 前記発話速度調節手段により発話速度が調節された前記音声データ、発話ブロック単一データ又は発話ブロック結合データに付与された前記発話時間情報の時間間隔を、発話速度に応じて変更する時間間隔変更手段を備えることを特徴とする、請求項6に記載の音声データ最適化システム。
- コンピュータを、発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、単一の音声データである発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、
前記発話ブロック結合データに含まれる前記各発話ブロック単一データの開始時刻又は終了時刻の少なくとも何れか一方を、前記発話ブロック結合データの時系列に沿って、結合後発話時間情報として付与する処理と、として機能させることを特徴とする音声データ最適化プログラム。 - 発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、単一の音声データである発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備え、
前記発話ブロック結合データに含まれる前記各発話ブロック単一データの開始時刻又は終了時刻の少なくとも何れか一方を、前記発話ブロック結合データの時系列に沿って、結合後発話時間情報として付与することを特徴とする音声データ最適化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018056847A JP6389348B1 (ja) | 2018-03-23 | 2018-03-23 | 音声データ最適化システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018056847A JP6389348B1 (ja) | 2018-03-23 | 2018-03-23 | 音声データ最適化システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018122180A Division JP6386690B1 (ja) | 2018-06-27 | 2018-06-27 | 音声データ最適化システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6389348B1 true JP6389348B1 (ja) | 2018-09-12 |
JP2019168604A JP2019168604A (ja) | 2019-10-03 |
Family
ID=63518913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018056847A Active JP6389348B1 (ja) | 2018-03-23 | 2018-03-23 | 音声データ最適化システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6389348B1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56144498A (en) * | 1980-04-14 | 1981-11-10 | Oki Electric Ind Co Ltd | Voice recognizing unit |
JPH06308992A (ja) * | 1993-04-21 | 1994-11-04 | Advance Co Ltd | 音声式電子ブック |
JP2001356793A (ja) * | 2000-06-13 | 2001-12-26 | Casio Comput Co Ltd | 音声認識装置、及び音声認識方法 |
JP2003066991A (ja) * | 2001-08-22 | 2003-03-05 | Seiko Epson Corp | 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体 |
JP2005352330A (ja) * | 2004-06-14 | 2005-12-22 | Heartful Wing:Kk | 音声分割記録装置 |
WO2006011405A1 (ja) * | 2004-07-28 | 2006-02-02 | The University Of Tokushima | デジタルフィルタリング方法及び装置 |
-
2018
- 2018-03-23 JP JP2018056847A patent/JP6389348B1/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56144498A (en) * | 1980-04-14 | 1981-11-10 | Oki Electric Ind Co Ltd | Voice recognizing unit |
JPH06308992A (ja) * | 1993-04-21 | 1994-11-04 | Advance Co Ltd | 音声式電子ブック |
JP2001356793A (ja) * | 2000-06-13 | 2001-12-26 | Casio Comput Co Ltd | 音声認識装置、及び音声認識方法 |
JP2003066991A (ja) * | 2001-08-22 | 2003-03-05 | Seiko Epson Corp | 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体 |
JP2005352330A (ja) * | 2004-06-14 | 2005-12-22 | Heartful Wing:Kk | 音声分割記録装置 |
WO2006011405A1 (ja) * | 2004-07-28 | 2006-02-02 | The University Of Tokushima | デジタルフィルタリング方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2019168604A (ja) | 2019-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6074050B2 (ja) | 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 | |
JP4466665B2 (ja) | 議事録作成方法、その装置及びそのプログラム | |
CN104380373B (zh) | 用于名称发音的系统和方法 | |
US7987244B1 (en) | Network repository for voice fonts | |
US10217466B2 (en) | Voice data compensation with machine learning | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
US20090012793A1 (en) | Text-to-speech assist for portable communication devices | |
TWI322409B (en) | Method for the tonal transformation of speech and system for modifying a dialect ot tonal speech | |
JP5731998B2 (ja) | 対話支援装置、対話支援方法および対話支援プログラム | |
JP2011087005A (ja) | 通話音声要約生成システム、その方法及び通話音声要約生成プログラム | |
JP2015156062A (ja) | 業務支援システム | |
JP2017120616A (ja) | 機械翻訳方法、及び、機械翻訳システム | |
KR20150017662A (ko) | 텍스트-음성 변환 방법, 장치 및 저장 매체 | |
JP2020071676A (ja) | 対話要約生成装置、対話要約生成方法およびプログラム | |
WO2020022079A1 (ja) | 音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法 | |
US20080316888A1 (en) | Device Method and System for Communication Session Storage | |
JPWO2015083741A1 (ja) | 中継装置、表示装置および通信システム | |
JP2016062333A (ja) | 検索サーバ、及び検索方法 | |
KR100822170B1 (ko) | 음성 인식 ars 서비스를 위한 데이터베이스 구축 방법및 시스템 | |
JP6389348B1 (ja) | 音声データ最適化システム | |
US6501751B1 (en) | Voice communication with simulated speech data | |
JP6386690B1 (ja) | 音声データ最適化システム | |
JP2019045788A (ja) | 通話音声認識システム及びその音声認識制御方法 | |
KR101916107B1 (ko) | 통신 단말 및 그 통신 단말의 정보처리 방법 | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180326 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20180326 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20180410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180816 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6389348 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |