JP6386690B1 - 音声データ最適化システム - Google Patents

音声データ最適化システム Download PDF

Info

Publication number
JP6386690B1
JP6386690B1 JP2018122180A JP2018122180A JP6386690B1 JP 6386690 B1 JP6386690 B1 JP 6386690B1 JP 2018122180 A JP2018122180 A JP 2018122180A JP 2018122180 A JP2018122180 A JP 2018122180A JP 6386690 B1 JP6386690 B1 JP 6386690B1
Authority
JP
Japan
Prior art keywords
data
utterance
speech
block
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018122180A
Other languages
English (en)
Other versions
JP2019168668A (ja
Inventor
佐藤 博
博 佐藤
閏洙 曹
閏洙 曹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ascend Corp
Original Assignee
Ascend Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ascend Corp filed Critical Ascend Corp
Priority to JP2018122180A priority Critical patent/JP6386690B1/ja
Application granted granted Critical
Publication of JP6386690B1 publication Critical patent/JP6386690B1/ja
Publication of JP2019168668A publication Critical patent/JP2019168668A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】音声データを効率的かつ正確にテキストデータに変換する処理を行うことが可能な、音声データ最適化システムを提供することを課題とする。
【解決手段】発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備えることを特徴とする。
【選択図】図1

Description

本発明は、録音された音声等をテキストデータに変換する際に用いられる音声データについての処理を行うシステムに係るものである。
近年、人工知能等テクノロジーの発展を背景に、スマートフォン等多くの電子機器に音声認識機能が実装されるようになった。
特に、会議やインタビューを行う現場において、録音された音声を書き起こす、所謂「文字起こし」の作業を大幅に効率化するために、音声データをテキストデータに変換するサービスが、様々な企業から提供されている。
この際、所望のテキストデータが得られるか否かは、音声データの品質に左右される。即ち、音声データにおいて、音量の小さい箇所や、滑らかに発音されていない箇所等が存在する場合、これらの箇所が、正確なテキストデータに変換されない恐れがある。
このような問題点を解決するために、特許文献1には、受信された音声データが、正確なテキストデータに変換されるものか否かについてのフィードバック情報を発信する記録デバイスが記載されている。
この記録デバイスは、発話者の口述における音量や速度等を、数値化された音声品質情報として認識し、この音声品質情報が低い値として受信された際に、発話者にリアルタイムでフィードバック情報を発信する構成となっている。
こうすることで、発話者がフィードバック情報に即座に対応でき、音声品質情報の品質の低下を抑制することができる。
特許第4917729号公報
しかしながら、特許文献1に記載の記録デバイスには、発話者の口述した発話内容が、そのまま記録されることとなる。
即ち、特許文献1に記載の記録デバイスに記録された発話内容には、発話者が発話していない箇所等、テキスト化において必要のない部分が含まれている可能性がある。これにより、発話者が、音声データの総時間に応じて費用が変動するテキスト化サービスを利用する場合に、無駄な費用が発生し、テキスト化する上での効率の悪化が懸念される。
本発明は上記のような実状に鑑みてなされたものであり、音声データを効率的かつ正確にテキストデータに変換する処理を行うことが可能な、音声データ最適化システムを提供することを課題とする。
上記課題を解決するために、本発明は、
発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備えることを特徴とする。
本発明によれば、発話ブロック結合データとして、発話者が発話していない無音部分が含まれていない音声データを生成することが可能となる。即ち、テキスト化に必要な部分のみを一つ音声データとして生成することが可能となるため、例えば、音声データの総時間に応じて費用が変動するテキスト化サービスを利用する場合、極力費用を抑えて、テキストデータを取得することが可能となる。
本発明の好ましい形態では、
前記発話ブロック結合データに対応したテキストデータ及び前記テキストデータに付与されたテキスト時間情報を受付ける受付手段と、
前記発話時間情報及び前記テキスト時間情報に基づいて、前記各発話ブロック単一データと前記テキストデータとを対応付けるマッピング手段と、を備えることを特徴とする。
このような構成とすることで、発話ブロック結合データに含まれる各発話ブロック単一データに対して、発話内容に適合したテキストデータをマッピングした音声データを取得することが可能となる。
本発明の好ましい形態では、前記結合手段は、前記発話ブロック結合データの総時間を所定の時間以上に変更することを特徴とする。
音声データの総時間が所定の時間より短いと(例えば、1分未満など)、テキスト化サービスを利用した際の音声データの認識率が低下する場合がある。このような構成とすることで、発話ブロック結合データを1分以上の所望の総時間に変更することができ、テキスト化サービスを利用した際の音声データの認識率を向上させることが可能となる。
本発明の好ましい形態では、前記結合手段は、結合する前記各発話ブロック単一データの数及び組み合わせの少なくとも何れか一方を変更することで、前記発話ブロック結合データの総時間を変更することを特徴とする。
このような構成とすることで、利用するテキスト化サービスが独自に設定している課金単位に合わせて、発話ブロック結合データの総時間を変更することができ、無駄な費用の発生を防止し、効率的にテキストデータを取得することが可能となる。
本発明の好ましい形態では、前記結合手段は、前記発話ブロック単一データ又は前記発話ブロック結合データの少なくとも何れか一方を一又は二以上含む複数の各データの組合せについて、
前記各データの総時間よりも大きい所定の単位時間の倍数の内、最も小さい倍数である基準倍数を決定し、
前記各データにおける前記基準倍数の合計値が最小となる前記組合せを決定し、
前記出力手段は、前記基準倍数の合計値が最小となる前記組合せに基づいて前記各データを出力することを特徴とする。
このような構成とすることで、利用するテキスト化サービスが独自に設定している課金単位に合わせて、発話ブロック結合データの総時間を変更することができ、無駄な費用の発生を防止し、効率的にテキストデータを取得することが可能となる。
本発明の好ましい形態では、
前記音声データは、発信音声データと受信音声データとを含み、
前記結合手段は、前記発信音声データと前記受信音声データそれぞれに付与された前記発話時間情報を元に、前記各発話ブロック単一データを経時的に結合することを特徴とする。
このような構成とすることで、通話により取得された音声データを、会話の流れに沿ってテキスト化することが可能となる。また、発信音声データ及び受信音声データにおける発話のタイミングに被りが発生した場合であっても、各音声データを正確にテキスト化することが可能となる。
本発明の好ましい形態では、前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を調節する発話音量調節手段を備えることを特徴とする。
このような構成とすることで、例えば、発話音量が小さく、テキスト化サービスに認識されない恐れのある音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を増大させることができ、正確にテキスト化されたデータを取得することができる。
本発明の好ましい形態では、前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を調節する発話速度調節手段を備えることを特徴とする。
このような構成とすることで、例えば、発話速度が速く、テキスト化サービスに認識されない恐れのある音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を減少させることができ、正確にテキスト化されたデータを取得することができる。
本発明の好ましい形態では、前記発話速度調節手段により発話速度が調節された前記音声データ、発話ブロック単一データ又は発話ブロック結合データに付与された前記発話時間情報の時間間隔を、発話速度に応じて変更する時間間隔変更手段を備えることを特徴とする。
このような構成とすることで、音声データ、発話ブロック単一データ又は発話ブロック結合データの総時間と、これらのデータに付与された発話時間情報の時間間隔との整合性を確保でき、常に、各データとテキストデータとの正確なマッピングを行うことが可能となる。
本発明は、音声データ最適化プログラムであって、
コンピュータを、発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、として機能させることを特徴とする。
本発明は、音声データ最適化装置であって、
発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備えることを特徴とする。
本発明によれば、音声データを効率的かつ正確にテキストデータに変換する処理を行うことが可能な、音声データ最適化システムを提供することができる。
本発明の実施形態に係る音声データ最適化システムの概要を示す図である。 本発明の実施形態に係る音声データ最適化システムのハードウェア構成の一例を示す図である。 本発明の実施形態に係る音声データ最適化システムの機能構成例を示す機能ブロック図である。 本発明の実施形態に係る音声データ最適化システムにより得られる音声データを示す図である。 本発明の実施形態に係る音声データ最適化システムにより得られる音声データの処理方法を示す図である。 本発明の実施形態に係る音声データ最適化システムにより得られる音声データの処理方法を示す図である。 本発明の実施形態に係る音声データ最適化システムにより得られる音声データの処理方法を示す図である。 本発明の実施形態に係る音声データ最適化システムにより得られる音声データの処理方法を示す図である。 本発明の実施形態に係る音声データ最適化システムにより処理された音声データを取得する際の画面表示例である。 本発明の実施形態に係る音声データ最適化システムの補助機能を説明するための図である。 本発明の実施形態に係る音声データ最適化システムの補助機能を説明するための図である。 本発明の実施形態に係る音声データ最適化システムの補助機能を説明するための図である。 本発明の実施形態に係る音声データ最適化システムの補助機能を説明するための図である。
以下、図面を用いて、本発明の実施形態に係る音声データ最適化システムについて説明する。なお、以下に示す実施形態は本発明の一例であり、本発明を以下の実施形態に限定するものではない。
例えば、本実施形態では音声データ最適化システムの構成、動作などについて説明するが、同様の構成の方法、装置、コンピュータプログラム、記録媒体なども、同様の作用効果を奏することができる。また、プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えばコンピュータに前記プログラムをインストールすることができる。ここで、前記プログラムを記憶した記録媒体は、例えばCD−ROM等の非一過性の記録媒体であっても良い。
以下、図1〜図9を用いて、企業のコールセンターに従事する受信者に、この企業の顧客である発信者が、携帯電話等の通話端末を用いて問い合わせを行った際に得られる音声データに対して、処理を行う場合を説明する。
図1(a)は、音声データを取得する際の、音声データ最適化システム1の概要を示す図である。
図1(a)における音声データ最適化システム1は、通話システム1aと、オペレーター端末1bと、オペレーター端末1bに接続された受信者通話部1cと、発信者通話部1dと、を備えており、それぞれがネットワークNを介して、相互に接続されている。
通話システム1aは、音声データを格納するクラウドCと、音声データの処理を行う音声データ最適化サーバPと、を有している。
図1(a)において、受信者通話部1c及び発信者通話部1dを用いた発信者と受信者との会話により取得された音声データは、都度、クラウドCに格納されていく。
図1(b)は、取得した音声データを処理する際の、音声データ最適化システム1の概要を示す図である。
図1(b)における音声データ最適化システム1は、通話システム1aと、オペレーター端末1bと、テキスト化サービス1eと、を備えており、それぞれがネットワークNを介して、相互に接続されている。
図1(b)において、受信者は、オペレーター端末1bを介して、クラウドCに格納されている複数の音声データから、所望の音声データを選択し、音声データ最適化サーバPに、音声データに対する処理を行う指示を送る。
なお、取得された音声データは、クラウドCに格納されず、直接オペレーター端末1bや、他の記憶装置に格納される構成としても良い。また、音声データ最適化システム1とは別のシステムにより取得された音声データが、音声データ最適化システム1のクラウドCに格納される若しくは直接オペレーター端末1bや、他の記憶装置に格納される構成としても良い。
図2に示すように、音声データ最適化サーバPは、CPU101と、メモリ102と、記憶部103と、外部の装置と通信を行うためのインターフェースである通信部104と、タッチパネルや物理キー等の入力部105と、ディスプレイ等の出力部106と、を備えている。また、記憶部103は、オペレーティングシステム107と、音声データ最適化プログラム108などが記録されている。音声データ最適化プログラム108は、オペレーティングシステム107と協調してその機能を発揮するものである。
図3に示すように、音声データ最適化サーバPは、生成手段2と、結合手段3と、出力手段4、受付手段5と、変換手段6と、マッピング手段7と、発話音量調節手段8と、発話速度調節手段9と、時間間隔変更手段10と、を備えている。
以下、図4〜図9を用いて音声データの具体的な処理方法について説明する。
なお、図4〜図7に示す各音声データの横軸tは時刻、縦軸aは振幅(音量)を表している。本実施形態において、音声データの処理段階で生成される情報は、メモリ102に保持される。例えば、別途音声データ最適化サーバPと通信可能なデータベースを設け、このデータベースに処理段階で生成される情報を保持しても構わない。
図4に示すように、受信者通話部1c及び発信者通話部1dを用いて取得された音声データD1は、受信者の発話内容が記録された受信音声データD11と、発信者の発話内容が記録された発信音声データD12と、を有している。
生成手段2は、取得された音声データの内、各発話者が発話したと認識できる部分を決定し、発話時間情報を付与することで、複数の発話ブロック単一データを生成する。
本実施形態では、まず、図5に示すように、音声データ最適化サーバPが、生成手段2により、音声データD1の時系列に沿って、複数の発話ブロック単一データD1a〜D1eを生成する。また、各発話ブロック単一データD1a〜D1eには、それぞれ発話ブロック識別情報d1a〜d1eが付与されている。
なお、発話ブロック単一データの決定方法としては、例えば、縦軸aにおいて所定の閾値及び横軸tにおいて所定の経過時間を設定しておき、所定の閾値を超える音声データが、所定の経過時間持続した部分を発話ブロック単一データと決定する方法が考えられる。
また、所定の閾値を下回る音声データが、所定の経過時間持続した部分を無音部分と決定し、二つの無音部分の間に存在する音声データを一の発話ブロック単一データと決定する方法も考えられる。
また、所定の閾値を超えた際の、音声データD1全体の時系列におけるタイムスタンプを取得し、このタイムスタンプに基づいて、発話ブロック単一データを決定する方法も考えられる。
各発話ブロック識別情報d1a〜d1eは、音声データD1の時系列に沿って、各発話ブロック単一データD1a〜D1eそれぞれにおける発話の開始時刻から終了時刻までの横軸tの値を、発話時間情報V1a〜V1eとして有している(図7(b)参照)。
また、各発話ブロック識別情報d1a〜d1eには、付与されている各発話ブロック単一データD1a〜D1eの発話者を示す発話者情報S1a〜S1eが紐づけられている(図7(b)参照)。
なお、本実施形態においては、発話ブロック単一データD1aの、発話の開始時における横軸tの値を、音声データD1全体における発話開始時刻の基準値、即ち0としている(図7(b)参照)。
結合手段3は、生成された複数の発話ブロック単一データを結合し、発話ブロック結合データを生成する。
本実施形態では、図6に示すように、音声データ最適化サーバPが、結合手段3により、音声データD1全体における各発話ブロック単一データD1a〜D1e以外の部分(無音部分)を削除することで、各発話ブロック単一データD1a〜D1eを個々の独立した音声データとする。
そして、図7(a)に示すように、付与された各発話ブロック識別情報d1a〜d1eの各発話時間情報V1a〜V1eに従い、時系列順となるように、各発話ブロック単一データD1a〜D1eを結合することで、発話ブロック結合データJ1を生成する。
また、このとき、音声データ最適化サーバPは、各発話ブロック単一データD1a〜D1eに、発話ブロック結合データJ1の時系列に沿って、発話の開始時刻から終了時刻までの横軸tの値を、結合後発話時間情報Y1〜Y5として付与する。
なお、各発話ブロック単一データD1a〜D1eを結合する順番は、必ずしも時系列順となるように結合する必要はなく、とのような順番であっても良い。
ここで、図7(b)に示すように、音声データ最適化サーバPは、発話ブロック結合データJ1の生成と共に、発話ブロック結合データJ1に対応したマッピング表A1に示すような対応関係を、メモリ102に記憶する。
マッピング表A1において、最左列には、各発話ブロック識別情報d1a〜d1eが記載され、その右隣りの列には、各発話ブロック識別情報d1a〜d1eに対応した各発話時間情報V1a〜V1eが記載され、その右隣りの列には、各発話ブロック識別情報d1a〜d1eに紐づけられた各発話者情報S1a〜S1eが記載され、その右隣りの列には、結合後発話時間情報Y1〜Y5が記載されている。
なお、各発話者情報S1a〜S1eにおいて、「In」は受信者、「Out」は発信者を示している。
出力手段4は、生成された発話ブロック結合データを、テキスト化サービスに出力する。
本実施形態では、音声データ最適化サーバPが、出力手段4を用いて、発話ブロック結合データJ1を、テキスト化サービス1eに出力する。
ここで、テキスト化サービス1eに出力された発話ブロック結合データJ1は、テキスト化サービス1eにより、文節単位又は単語単位で分割される。そして、テキスト化サービス1eは、分割された各文節又は各単語に、発話ブロック結合データJ1の時系列に沿ってテキスト時間情報(図示せず)が付与された、分割テキストデータ(図示せず)を出力する。
受付手段5は、テキスト化サービスから、上述した分割テキストデータを受付ける。
また、受付けた分割テキストデータは、結合手段3により、テキスト時間情報の時系列に沿って、各文節又は各単語が結合され、結合テキストデータ(図示せず)として生成される。
マッピング手段7は、結合テキストデータに付与されているテキスト時間情報と結合後発話時間情報と、を対応付ける
本実施形態では、図8(a)に示すように、音声データ最適化サーバPが、マッピング手段7を用いて、結合テキストデータに付与されているテキスト時間情報と結合後発話時間情報Y1〜Y5と、を対応付け、マッピング表A2に示すような対応関係を、メモリ102に記憶する。
マッピング表A2において、右列には、中央列に記載された各結合後発話時間情報Y1〜Y5に対応した各発話ブロック単一データD1a〜D1eの、テキストデータT1a〜T1eが記載されている。また、マッピング表A2の左列には、各テキストデータT1a〜T1eに付与された複数のテキスト識別情報t1a〜t1eが記載されている。
変換手段6は、テキスト識別情報を発話ブロック識別情報に変換する。
本実施形態では、音声データ最適化サーバPが、変換手段6を用いて、マッピング表A2における各テキスト識別情報t1a〜t1eを、マッピング表A1に基づいて、各発話ブロック識別情報d1a〜d1eに変換する。
ここで、各発話ブロック識別情報d1a〜d1eは、発話時間情報V1a〜V1eを有している他、各発話者情報S1a〜S1eが紐づいていることから、音声データ最適化サーバPは、上述した変換により、全体として図8(b)に示すようなマッピング表A3に示すような対応関係を、メモリ102に記憶する。
マッピング手段7は、複数の発話ブロック単一データと複数のテキストデータとを対応付け、一の発話ブロック単一データ及びこれに対応する一のテキストデータが格納された複数の個別音声データを生成する。
本実施形態では、音声データ最適化サーバPが、マッピング手段7を用いて、各発話ブロック単一データD1a〜D1e及び各テキストデータT1a〜T1eに付与された各発話ブロック識別情報d1a〜d1eを元に、各発話ブロック単一データD1a〜D1eと各テキストデータT1a〜T1eとを対応付け、一の発話ブロック単一データ及びこれに対応する一のテキストデータが格納された複数の個別音声データX1〜X5を生成する。
以上の処理を行うことにより生成された各個別音声データX1〜X5は、クラウドCに格納される。
そして、受信者は、適宜オペレーター端末1bを介して、各個別音声データX1〜X5を取得する。
図9は、受信者が、オペレーター端末1bを介して、各個別音声データX1〜X5を取得する際の、画面表示例である。
受信者は、画面上で直接各テキストデータT1a〜T1eの内容を閲覧できる他、再生ボタンb1の操作により、画面上で各個別音声データX1〜X5の発話内容を再生することができる。
また、受信者は、ダウンロードボタンb2により、各個別音声データX1〜X5を個別にオペレーター端末1bに保存することができる。
なお、発話ブロック結合データJ1は、通話により取得された複数の音声データを結合することにより生成されても良い。この際、発話ブロック結合データJ1に含まれる発話内容や通話目的の関連性を高めるために、例えば、音声データに対して「修理に関する問い合わせ」や「顧客情報に関する問い合わせ」等、カテゴリー情報を紐づけておき、カテゴリー情報に基づいて結合を行うことが好ましい。
次に、図10〜図13を用いて、音声データ最適化システム1が備える、効率的かつ正確なテキスト化を補助する機能について説明する。
なお、図10〜図13に示す各音声データの横軸tは時刻、縦軸aは振幅(音量)を表している。
図10においては、発信者と受信者との会話により取得された2つの音声データD2及びD3が、クラウドCに格納されている場合を想定する。
音声データD2は、発信者の発話内容が記録された発信音声データD21と、受信者の発話内容が記録された受信音声データD22と、を有している。
また、音声データD2は、音声データ最適化サーバPの生成手段2により、時系列に沿って、複数の発話ブロック単一データD2a〜D2cが生成されており、各発話ブロック単一データD2a〜D2cには、それぞれ発話ブロック識別情報d2a〜d2cが付与されている。
音声データD3は、発信者の発話内容が記録された発信音声データD31と、受信者の発話内容が記録された受信音声データD32と、を有している。
また、音声データD3は、音声データ最適化サーバPの生成手段2により、時系列に沿って、複数の発話ブロック単一データD3a〜D3cが生成されており、各発話ブロック単一データD3a〜D3cには、それぞれ発話ブロック識別情報d3a〜d3cが付与されている。
ここで、音声データ最適化サーバPは、結合手段3により、発話ブロック結合データの総時間を所定の時間以上に変更することができる。
例えば、本実施例では、音声データ最適化サーバPは、発話ブロック結合データの総時間を、予め設定された所定の時間以上となるまで、複数の発話ブロック単一データの結合を行う。
即ち、まず、音声データ最適化サーバPは、結合手段3により、発話ブロック結合データJ2及びJ3を生成する(矢印a)。このとき、発話ブロック結合データJ2及びJ3それぞれの総時間が30(s)及び40(s)であり、予め設定された所定の時間が60(s)であるとすると、音声データ最適化サーバPは、発話ブロック結合データJ2及びJ3をさらに結合する(矢印b)。
こうすることで、音声データ最適化サーバPは、総時間が60(s)以上(70(s))の発話ブロック結合データJ4を生成する。
なお、上述したような、発信者と受信者との会話により取得された音声データがクラウドCに複数格納されている場合であっても、発話ブロック単一データの結合の数や順番は特に限定されない。
図11〜図13においては、1人の発話者が間隔を空けて複数回発話することにより取得された、1つの音声データD4が、クラウドCに格納されている場合を想定する
図11に示すように、音声データD4は、生成手段2により、音声データD4の時系列に沿って、複数の発話ブロック単一データD4a〜D4cが生成されており、各発話ブロック単一データD4a〜D4cには、それぞれ発話ブロック識別情報d4a〜d4cが付与されている。
各発話ブロック識別情報d4a〜d4cは、音声データD4の時系列に沿って、各発話ブロック単一データD4a〜D4cそれぞれについて、発話の開始時刻から終了時刻までの横軸tの値を、発話時間情報V4a〜V4cとして有している。
なお、発話時間情報V4aは0〜20(s)、発話時間情報V4bは22〜38(s)、発話時間情報V4cは40〜51(s)とする。即ち、各発話ブロック単一データD4a〜D4cの総時間は、それぞれ20(s)、16(s)、11(s)である。
ここで、音声データ最適化サーバPは、結合手段3により、発話ブロック単一データ又は発話ブロック結合データの少なくとも何れか一方を一又は二以上含む複数の各データの組合せについて、各データの総時間よりも大きい所定の単位時間の倍数の内、最も小さい倍数である基準倍数を決定し、各データにおける基準倍数の合計値が最小となる組合せを決定することができる。
本実施形態では、各データの組合せとして、図11の表Zの左列に示すように、(i)〜(v)のような組合せが考えられる。
例えば、(i)の組合せは、結合されていない発話ブロック単一データD4a〜D4cが含まれていることを示している。また、(ii)の組合せは、発話ブロック単一データD4a及びD4bを結合した発話ブロック結合データと、発話ブロック単一データD4cと、が含まれていることを示している。
ここで、テキスト化サービス1eは、独自に音声データの総時間に基づく料金体系を決定しており、特に、所定の秒単位で課金されていく方式を採用している場合が多い。
本実施形態では、例えば、テキスト化サービス1eが、15秒単位で課金されていく方式を採用している場合を想定する。
この際、例えば、発話ブロック単一データD4aは、総時間が20(s)であるから、20よりも大きい15の倍数の内、最も小さい倍数である「30」が、発話ブロック単一データD4aの基準倍数と決定される。
以下同様にして、発話ブロック単一データD4bの基準倍数は「30」、発話ブロック単一データD4cの基準倍数は「15」と決定される。
よって、(i)の組合せに含まれる各データについての基準倍数の合計値は、表Zの右列に示すように、「75」と決定される。
上述したようにして、(ii)〜(v)の組合せについても、基準倍数の合計値を決定すると、表Zの右列に示すようになり、(ii)〜(v)の組合せの内、基準倍数の合計値が最小となる組合せは、(ii)又は(v)の組合せと決定される。
以上より、出力手段4は、(ii)又は(v)の組合せの何れか一方を、テキスト化サービス1eに出力する。
発話音量調節手段8は、音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を調節する
本実施形態では、図12に示すように、音声データ最適化サーバPは、発話音量調節手段8を用いて、各発話ブロック単一データD4a〜D4cの振幅を、増大(矢印c)又は減少(矢印d)させることで、発話音量を増大又は減少させることができる。
なお、この処理は、各発話ブロック単一データD4a〜D4cに個別に行うことや、音声データD4全体に対して行うことも、当然に可能である。
発話速度調節手段9は、音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を調節する
本実施形態では、図13(a)に示すように、音声データ最適化サーバPは、発話速度調節手段9を用いて、各発話ブロック単一データD4a〜D4cの波長を、増大(矢印e)又は減少(矢印f)させることで、発話速度を増大又は減少させることができる。
なお、この処理は、各発話ブロック単一データD4a〜D4cに個別に行うことや、音声データD4全体に対して行うことも、当然に可能である。
時間間隔変更手段10は、発話速度調節手段9により発話速度が調節された音声データ、発話ブロック単一データ又は発話ブロック結合データに付与された発話時間情報及び結合後発話時間情報の時間間隔を、発話速度に応じて変更する。
本実施形態では、音声データ最適化サーバPは、時間間隔変更手段10を用いて、発話ブロック識別情報d4a〜d4cが有する発話時間情報V4a〜V4c及び結合後発話時間情報Y4a〜Y4cを、発話速度調節手段9を用いて調節された発話速度に応じて変更することができる。
例えば、矢印hのように、波長を増大させることで、各発話ブロック単一データD4a〜D4cの発話速度を2/3倍速とした場合、音声データ最適化サーバPは、各発話ブロック識別情報d4a〜d4cが有する発話時間情報V4a〜V4c及び結合後発話時間情報Y4a〜Y4cを、3/2倍に変更することで、新たな発話時間情報V4a´〜V4c´及び結合後発話時間情報Y4a´〜Y4c´を生成する。
このとき、音声データ最適化サーバPは、図13(b)に示すように、マッピング表A4に示す対応関係を、マッピング表A5に示す対応関係に変更し、メモリ102に記憶する。即ち、音声データ最適化サーバPは、発話時間情報V4a〜V4c及び結合後発話時間情報Y4a〜Y4cを、発話時間情報V4a´〜V4c´及び結合後発話時間情報Y4a´〜Y4c´に変更する(矢印g)。
なお、発話音量調節手段8や発話速度調節手段9による発話音量や発話速度の調節は、結合手段3を用いた複数の発話ブロック単一データの結合前又は結合後、何れのタイミングでも行うことができる。
例えば、生成された全ての発話ブロック単一データを結合することにより生成された発話ブロック結合データの総時間が、予め設定された所定の時間に満たない場合には、音声データ最適化サーバPに、後述する発話速度調節手段9により、発話速度を遅くする処理を行わせる構成としても良い。
本実施形態によれば、発話者が発話していない無音部分が含まれていない発話ブロック結合データJ1〜J4を生成することが可能となる。即ち、テキスト化に必要な部分のみを一つ音声データとして生成することが可能となるため、音声データの総時間に応じて費用が変動するテキスト化サービスを利用する場合、極力費用を抑えて、テキストデータを取得することが可能となる。
また、発話ブロック結合データJ1に含まれる各発話ブロック単一データD1a〜D1eに対して、発話内容に適合したテキストデータT1a〜T1eをマッピングし、一の発話ブロック単一データ及びこれに対応する一のテキストデータが格納された複数の個別音声データX1〜X5を生成及び取得することが可能となる。
また、音声データ最適化サーバPが、結合手段3により、発話ブロック結合データJ2及びJ3をさらに結合し、総時間が60(s)以上の発話ブロック結合データJ4を生成することで、テキスト化サービスへ出力した際の発話ブロック結合データの認識率を向上させることが可能となる。
また、音声データ最適化サーバPが、結合手段3により、基準倍数の合計値が最小となる発話ブロック単一データ又は発話ブロック結合データ組合せを決定することで、テキスト化の際、無駄な費用の発生を抑え、効率的にテキストデータを取得することが可能となる。
また、音声データ最適化サーバPが、結合手段3により、受信音声データD11及び発信音声データD12に含まれる複数の発話ブロック単一データD1a〜D1eに付与された発話ブロック識別情報d1a〜d1eを元に、各発話ブロック単一データD1a〜D1eを経時的に結合することで、通話により取得された音声データD1を、会話の流れに沿ってテキスト化することが可能となる。また、受信音声データD11及び発信音声データD12における発話のタイミングに被りが発生した場合であっても、各音声データを正確にテキスト化することが可能となる。
また、音声データ最適化サーバPが、発話音量調節手段8により、音声データD5が有する複数の発話ブロック単一データD5a〜D5cの発話音量を増大させることで、テキスト化サービスの、発話ブロック単一データD5a〜D5cに対する音声の認識率を向上させ、正確にテキスト化されたデータを取得することができる。
また、音声データ最適化サーバPが、発話速度調節手段9により、音声データD5が有する複数の発話ブロック単一データD5a〜D5cの発話速度を減少させることで、テキスト化サービスの、各発話ブロック単一データD5a〜D5cに対する音声の認識率を向上させ、正確にテキスト化されたデータを取得することができる。
また、音声データ最適化サーバPが、時間間隔変更手段10により、発話速度調節手段9により発話速度が調節された各発話ブロック単一データD5a〜D5cの総時間と、これらのデータに付与された発話ブロック識別情報d5a〜d5cの時間間隔との整合性を確保でき、常に、各発話ブロック単一データD5a〜D5cと発話ブロック識別情報d5a〜d5cとの正確なマッピングを行うことが可能となる。
なお、図10〜図13において示した処理は、発信者と受信者との会話により取得された音声データに対しても、当然に適用される。
また、本実施形態に係る音声データ最適化システム1は、会議等3人以上の発話者が存在するような場面で取得された音声データに対しても
1 音声データ最適化システム
101 CPU
102 メモリ
103 記憶部
104 通信部
105 入力部
106 出力部
107 オペレーティングシステム
108 音声データ最適化プログラム
2 生成手段
3 結合手段
4 出力手段
5 受付手段
6 変換手段
7 マッピング手段
8 発話音量調節手段
9 発話速度調節手段
10 時間間隔変更手段
1a 通話システム
1b オペレーター端末
1c 受信者通話部
1d 発信者通話部
1e テキスト化サービス
D1〜D5 音声データ
D11 受信音声データ
D12 発信音声データ
D1a〜D1e、D2a〜D2e、D3a〜D3e、D4a〜D4e、D5a〜D5e 発話ブロック単一データ
d1a〜d1e、d2a〜d2e、d3a〜d3e、d4a〜d4e、d5a〜d5e 発話ブロック識別情報
V1a〜V1e、V1a´〜V1e´ 発話時間情報
Y1a〜Y1e、Y1a´〜Y1e´ 結合後発話時間情報
S1a〜S1e 発話者情報
T1a〜T1e テキストデータ
t1a〜t1e テキスト識別情報
J1〜J4 発話ブロック結合データ
A1〜A5 マッピング表
X1〜X5 個別音声データ
C クラウド
P 音声データ最適化サーバ
N ネットワーク
Z 表

Claims (10)

  1. 発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
    前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
    前記発話ブロック結合データを出力する出力手段と、を備え、
    前記結合手段は、前記発話ブロック単一データ又は前記発話ブロック結合データの少なくとも何れか一方を一又は二以上含む複数の各データの組合せについて、
    前記各データの総時間よりも大きい所定の単位時間の倍数の内、最も小さい倍数である基準倍数を決定し、
    前記各データにおける前記基準倍数の合計値が最小となる前記組合せを決定し、
    前記出力手段は、前記基準倍数の合計値が最小となる前記組合せに基づいて前記各データを出力することを特徴とする音声データ最適化システム。
  2. 前記発話ブロック結合データに対応したテキストデータ及び前記テキストデータに付与されたテキスト時間情報を受付ける受付手段と、
    前記発話時間情報及び前記テキスト時間情報に基づいて、前記各発話ブロック単一データと前記テキストデータとを対応付けるマッピング手段と、を備えることを特徴とする、請求項1に記載の音声データ最適化システム。
  3. 前記結合手段は、前記発話ブロック結合データの総時間を所定の時間以上に変更することを特徴とする、請求項1又は2に記載の音声データ最適化システム。
  4. 前記結合手段は、結合する前記各発話ブロック単一データの数及び組み合わせの少なくとも何れか一方を変更することで、前記発話ブロック結合データの総時間を変更することを特徴とする、請求項1〜3の何れかに記載の音声データ最適化システム。
  5. 前記音声データは、発信音声データと受信音声データとを含み、
    前記結合手段は、前記発信音声データと前記受信音声データそれぞれに付与された前記発話時間情報を元に、前記各発話ブロック単一データを経時的に結合することを特徴とする、請求項1〜4の何れかに記載の音声データ最適化システム。
  6. 前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を調節する発話音量調節手段を備えることを特徴とする、請求項1〜5の何れかに記載の音声データ最適化システム。
  7. 前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を調節する発話速度調節手段を備えることを特徴とする、請求項1〜6の何れかに記載の音声データ最適化システム。
  8. 前記発話速度調節手段により発話速度が調節された前記音声データ、発話ブロック単一データ又は発話ブロック結合データに付与された前記発話時間情報の時間間隔を、発話速度に応じて変更する時間間隔変更手段を備えることを特徴とする、請求項7に記載の音声データ最適化システム。
  9. コンピュータを、発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
    前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
    前記発話ブロック結合データを出力する出力手段と、として機能させ、
    前記結合手段は、前記発話ブロック単一データ又は前記発話ブロック結合データの少なくとも何れか一方を一又は二以上含む複数の各データの組合せについて、
    前記各データの総時間よりも大きい所定の単位時間の倍数の内、最も小さい倍数である基準倍数を決定し、
    前記各データにおける前記基準倍数の合計値が最小となる前記組合せを決定し、
    前記出力手段は、前記基準倍数の合計値が最小となる前記組合せに基づいて前記各データを出力することを特徴とする音声データ最適化プログラム。
  10. 発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
    前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
    前記発話ブロック結合データを出力する出力手段と、を備え、
    前記結合手段は、前記発話ブロック単一データ又は前記発話ブロック結合データの少なくとも何れか一方を一又は二以上含む複数の各データの組合せについて、
    前記各データの総時間よりも大きい所定の単位時間の倍数の内、最も小さい倍数である基準倍数を決定し、
    前記各データにおける前記基準倍数の合計値が最小となる前記組合せを決定し、
    前記出力手段は、前記基準倍数の合計値が最小となる前記組合せに基づいて前記各データを出力することを特徴とする音声データ最適化装置。
JP2018122180A 2018-06-27 2018-06-27 音声データ最適化システム Active JP6386690B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018122180A JP6386690B1 (ja) 2018-06-27 2018-06-27 音声データ最適化システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018122180A JP6386690B1 (ja) 2018-06-27 2018-06-27 音声データ最適化システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018056847A Division JP6389348B1 (ja) 2018-03-23 2018-03-23 音声データ最適化システム

Publications (2)

Publication Number Publication Date
JP6386690B1 true JP6386690B1 (ja) 2018-09-05
JP2019168668A JP2019168668A (ja) 2019-10-03

Family

ID=63444197

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018122180A Active JP6386690B1 (ja) 2018-06-27 2018-06-27 音声データ最適化システム

Country Status (1)

Country Link
JP (1) JP6386690B1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56144498A (en) * 1980-04-14 1981-11-10 Oki Electric Ind Co Ltd Voice recognizing unit
JPH06308992A (ja) * 1993-04-21 1994-11-04 Advance Co Ltd 音声式電子ブック
JP2001356793A (ja) * 2000-06-13 2001-12-26 Casio Comput Co Ltd 音声認識装置、及び音声認識方法
JP2003066991A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体
JP2005352330A (ja) * 2004-06-14 2005-12-22 Heartful Wing:Kk 音声分割記録装置
WO2006011405A1 (ja) * 2004-07-28 2006-02-02 The University Of Tokushima デジタルフィルタリング方法及び装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56144498A (en) * 1980-04-14 1981-11-10 Oki Electric Ind Co Ltd Voice recognizing unit
JPH06308992A (ja) * 1993-04-21 1994-11-04 Advance Co Ltd 音声式電子ブック
JP2001356793A (ja) * 2000-06-13 2001-12-26 Casio Comput Co Ltd 音声認識装置、及び音声認識方法
JP2003066991A (ja) * 2001-08-22 2003-03-05 Seiko Epson Corp 音声認識結果出力方法および音声認識結果出力装置ならびに音声認識結果出力処理プログラムを記録した記録媒体
JP2005352330A (ja) * 2004-06-14 2005-12-22 Heartful Wing:Kk 音声分割記録装置
WO2006011405A1 (ja) * 2004-07-28 2006-02-02 The University Of Tokushima デジタルフィルタリング方法及び装置

Also Published As

Publication number Publication date
JP2019168668A (ja) 2019-10-03

Similar Documents

Publication Publication Date Title
US10885318B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
CN107039038B (zh) 学习个性化实体发音
US7987244B1 (en) Network repository for voice fonts
US8326596B2 (en) Method and apparatus for translating speech during a call
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US20090012793A1 (en) Text-to-speech assist for portable communication devices
US20120330643A1 (en) System and method for translation
US20040064322A1 (en) Automatic consolidation of voice enabled multi-user meeting minutes
JP2008225068A (ja) 議事録作成方法、その装置及びそのプログラム
CN107680581A (zh) 用于名称发音的系统和方法
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
JPWO2015037073A1 (ja) 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体
JP2020071675A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
KR20150017662A (ko) 텍스트-음성 변환 방법, 장치 및 저장 매체
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
JPWO2015083741A1 (ja) 中継装置、表示装置および通信システム
KR100822170B1 (ko) 음성 인식 ars 서비스를 위한 데이터베이스 구축 방법및 시스템
JP6386690B1 (ja) 音声データ最適化システム
JP6389348B1 (ja) 音声データ最適化システム
US6501751B1 (en) Voice communication with simulated speech data
WO2020022079A1 (ja) 音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法
KR101916107B1 (ko) 통신 단말 및 그 통신 단말의 정보처리 방법
US11848026B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
JP5627109B2 (ja) 音声信号処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180704

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180704

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180809

R150 Certificate of patent or registration of utility model

Ref document number: 6386690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250