JP6389348B1

JP6389348B1 - 音声データ最適化システム

Info

Publication number: JP6389348B1
Application number: JP2018056847A
Authority: JP
Inventors: 佐藤　博; 博佐藤; 閏洙曹
Original assignee: Ascend Corp
Current assignee: Ascend Corp
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-09-12
Anticipated expiration: 2038-03-23
Also published as: JP2019168604A

Abstract

【課題】音声データを効率的かつ正確にテキストデータに変換する処理を行うことが可能な、音声データ最適化システムを提供する。【解決手段】音声データ最適化サーバＰは、発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、前記発話ブロック結合データを出力する出力手段と、を備える。【選択図】図３

Description

本発明は、録音された音声等をテキストデータに変換する際に用いられる音声データについての処理を行うシステムに係るものである。

近年、人工知能等テクノロジーの発展を背景に、スマートフォン等多くの電子機器に音声認識機能が実装されるようになった。

特に、会議やインタビューを行う現場において、録音された音声を書き起こす、所謂「文字起こし」の作業を大幅に効率化するために、音声データをテキストデータに変換するサービスが、様々な企業から提供されている。

この際、所望のテキストデータが得られるか否かは、音声データの品質に左右される。即ち、音声データにおいて、音量の小さい箇所や、滑らかに発音されていない箇所等が存在する場合、これらの箇所が、正確なテキストデータに変換されない恐れがある。

このような問題点を解決するために、特許文献１には、受信された音声データが、正確なテキストデータに変換されるものか否かについてのフィードバック情報を発信する記録デバイスが記載されている。
この記録デバイスは、発話者の口述における音量や速度等を、数値化された音声品質情報として認識し、この音声品質情報が低い値として受信された際に、発話者にリアルタイムでフィードバック情報を発信する構成となっている。
こうすることで、発話者がフィードバック情報に即座に対応でき、音声品質情報の品質の低下を抑制することができる。

特許第４９１７７２９号公報

しかしながら、特許文献１に記載の記録デバイスには、発話者の口述した発話内容が、そのまま記録されることとなる。
即ち、特許文献１に記載の記録デバイスに記録された発話内容には、発話者が発話していない箇所等、テキスト化において必要のない部分が含まれている可能性がある。これにより、発話者が、音声データの総時間に応じて費用が変動するテキスト化サービスを利用する場合に、無駄な費用が発生し、テキスト化する上での効率の悪化が懸念される。

本発明は上記のような実状に鑑みてなされたものであり、音声データを効率的かつ正確にテキストデータに変換する処理を行うことが可能な、音声データ最適化システムを提供することを課題とする。

上記課題を解決するために、本発明は、
発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備えることを特徴とする。

本発明によれば、発話ブロック結合データとして、発話者が発話していない無音部分が含まれていない音声データを生成することが可能となる。即ち、テキスト化に必要な部分のみを一つ音声データとして生成することが可能となるため、例えば、音声データの総時間に応じて費用が変動するテキスト化サービスを利用する場合、極力費用を抑えて、テキストデータを取得することが可能となる。

本発明の好ましい形態では、
前記発話ブロック結合データに対応したテキストデータ及び前記テキストデータに付与されたテキスト時間情報を受付ける受付手段と、
前記発話時間情報及び前記テキスト時間情報に基づいて、前記各発話ブロック単一データと前記テキストデータとを対応付けるマッピング手段と、を備えることを特徴とする。

このような構成とすることで、発話ブロック結合データに含まれる各発話ブロック単一データに対して、発話内容に適合したテキストデータをマッピングした音声データを取得することが可能となる。

本発明の好ましい形態では、前記結合手段は、前記発話ブロック結合データの総時間を所定の時間以上に変更することを特徴とする。

音声データの総時間が所定の時間より短いと（例えば、１分未満など）、テキスト化サービスを利用した際の音声データの認識率が低下する場合がある。このような構成とすることで、発話ブロック結合データを１分以上の所望の総時間に変更することができ、テキスト化サービスを利用した際の音声データの認識率を向上させることが可能となる。

本発明の好ましい形態では、前記結合手段は、結合する前記各発話ブロック単一データの数及び組み合わせの少なくとも何れか一方を変更することで、前記発話ブロック結合データの総時間を変更することを特徴とする。

このような構成とすることで、利用するテキスト化サービスが独自に設定している課金単位に合わせて、発話ブロック結合データの総時間を変更することができ、無駄な費用の発生を防止し、効率的にテキストデータを取得することが可能となる。

本発明の好ましい形態では、前記結合手段は、前記発話ブロック単一データ又は前記発話ブロック結合データの少なくとも何れか一方を一又は二以上含む複数の各データの組合せについて、
前記各データの総時間よりも大きい所定の単位時間の倍数の内、最も小さい倍数である基準倍数を決定し、
前記各データにおける前記基準倍数の合計値が最小となる前記組合せを決定し、
前記出力手段は、前記基準倍数の合計値が最小となる前記組合せに基づいて前記各データを出力することを特徴とする。

本発明の好ましい形態では、
前記音声データは、発信音声データと受信音声データとを含み、
前記結合手段は、前記発信音声データと前記受信音声データそれぞれに付与された前記発話時間情報を元に、前記各発話ブロック単一データを経時的に結合することを特徴とする。

このような構成とすることで、通話により取得された音声データを、会話の流れに沿ってテキスト化することが可能となる。また、発信音声データ及び受信音声データにおける発話のタイミングに被りが発生した場合であっても、各音声データを正確にテキスト化することが可能となる。

本発明の好ましい形態では、前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を調節する発話音量調節手段を備えることを特徴とする。

このような構成とすることで、例えば、発話音量が小さく、テキスト化サービスに認識されない恐れのある音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を増大させることができ、正確にテキスト化されたデータを取得することができる。

本発明の好ましい形態では、前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を調節する発話速度調節手段を備えることを特徴とする。

このような構成とすることで、例えば、発話速度が速く、テキスト化サービスに認識されない恐れのある音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を減少させることができ、正確にテキスト化されたデータを取得することができる。

本発明の好ましい形態では、前記発話速度調節手段により発話速度が調節された前記音声データ、発話ブロック単一データ又は発話ブロック結合データに付与された前記発話時間情報の時間間隔を、発話速度に応じて変更する時間間隔変更手段を備えることを特徴とする。

このような構成とすることで、音声データ、発話ブロック単一データ又は発話ブロック結合データの総時間と、これらのデータに付与された発話時間情報の時間間隔との整合性を確保でき、常に、各データとテキストデータとの正確なマッピングを行うことが可能となる。

本発明は、音声データ最適化プログラムであって、
コンピュータを、発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、として機能させることを特徴とする。

本発明は、音声データ最適化装置であって、
発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備えることを特徴とする。

本発明によれば、音声データを効率的かつ正確にテキストデータに変換する処理を行うことが可能な、音声データ最適化システムを提供することができる。

本発明の実施形態に係る音声データ最適化システムの概要を示す図である。本発明の実施形態に係る音声データ最適化システムのハードウェア構成の一例を示す図である。本発明の実施形態に係る音声データ最適化システムの機能構成例を示す機能ブロック図である。本発明の実施形態に係る音声データ最適化システムにより得られる音声データを示す図である。本発明の実施形態に係る音声データ最適化システムにより得られる音声データの処理方法を示す図である。本発明の実施形態に係る音声データ最適化システムにより得られる音声データの処理方法を示す図である。本発明の実施形態に係る音声データ最適化システムにより得られる音声データの処理方法を示す図である。本発明の実施形態に係る音声データ最適化システムにより得られる音声データの処理方法を示す図である。本発明の実施形態に係る音声データ最適化システムにより処理された音声データを取得する際の画面表示例である。本発明の実施形態に係る音声データ最適化システムの補助機能を説明するための図である。本発明の実施形態に係る音声データ最適化システムの補助機能を説明するための図である。本発明の実施形態に係る音声データ最適化システムの補助機能を説明するための図である。本発明の実施形態に係る音声データ最適化システムの補助機能を説明するための図である。

以下、図面を用いて、本発明の実施形態に係る音声データ最適化システムについて説明する。なお、以下に示す実施形態は本発明の一例であり、本発明を以下の実施形態に限定するものではない。

例えば、本実施形態では音声データ最適化システムの構成、動作などについて説明するが、同様の構成の方法、装置、コンピュータプログラム、記録媒体なども、同様の作用効果を奏することができる。また、プログラムは、記録媒体に記憶させてもよい。この記録媒体を用いれば、例えばコンピュータに前記プログラムをインストールすることができる。ここで、前記プログラムを記憶した記録媒体は、例えばＣＤ−ＲＯＭ等の非一過性の記録媒体であっても良い。

以下、図１〜図９を用いて、企業のコールセンターに従事する受信者に、この企業の顧客である発信者が、携帯電話等の通話端末を用いて問い合わせを行った際に得られる音声データに対して、処理を行う場合を説明する。

図１（ａ）は、音声データを取得する際の、音声データ最適化システム１の概要を示す図である。
図１（ａ）における音声データ最適化システム１は、通話システム１ａと、オペレーター端末１ｂと、オペレーター端末１ｂに接続された受信者通話部１ｃと、発信者通話部１ｄと、を備えており、それぞれがネットワークＮを介して、相互に接続されている。
通話システム１ａは、音声データを格納するクラウドＣと、音声データの処理を行う音声データ最適化サーバＰと、を有している。

図１（ａ）において、受信者通話部１ｃ及び発信者通話部１ｄを用いた発信者と受信者との会話により取得された音声データは、都度、クラウドＣに格納されていく。

図１（ｂ）は、取得した音声データを処理する際の、音声データ最適化システム１の概要を示す図である。
図１（ｂ）における音声データ最適化システム１は、通話システム１ａと、オペレーター端末１ｂと、テキスト化サービス１ｅと、を備えており、それぞれがネットワークＮを介して、相互に接続されている。

図１（ｂ）において、受信者は、オペレーター端末１ｂを介して、クラウドＣに格納されている複数の音声データから、所望の音声データを選択し、音声データ最適化サーバＰに、音声データに対する処理を行う指示を送る。
なお、取得された音声データは、クラウドＣに格納されず、直接オペレーター端末１ｂや、他の記憶装置に格納される構成としても良い。また、音声データ最適化システム１とは別のシステムにより取得された音声データが、音声データ最適化システム１のクラウドＣに格納される若しくは直接オペレーター端末１ｂや、他の記憶装置に格納される構成としても良い。

図２に示すように、音声データ最適化サーバＰは、ＣＰＵ１０１と、メモリ１０２と、記憶部１０３と、外部の装置と通信を行うためのインターフェースである通信部１０４と、タッチパネルや物理キー等の入力部１０５と、ディスプレイ等の出力部１０６と、を備えている。また、記憶部１０３は、オペレーティングシステム１０７と、音声データ最適化プログラム１０８などが記録されている。音声データ最適化プログラム１０８は、オペレーティングシステム１０７と協調してその機能を発揮するものである。

図３に示すように、音声データ最適化サーバＰは、生成手段２と、結合手段３と、出力手段４、受付手段５と、変換手段６と、マッピング手段７と、発話音量調節手段８と、発話速度調節手段９と、時間間隔変更手段１０と、を備えている。

以下、図４〜図９を用いて音声データの具体的な処理方法について説明する。
なお、図４〜図７に示す各音声データの横軸ｔは時刻、縦軸ａは振幅（音量）を表している。本実施形態において、音声データの処理段階で生成される情報は、メモリ１０２に保持される。例えば、別途音声データ最適化サーバＰと通信可能なデータベースを設け、このデータベースに処理段階で生成される情報を保持しても構わない。

図４に示すように、受信者通話部１ｃ及び発信者通話部１ｄを用いて取得された音声データＤ１は、受信者の発話内容が記録された受信音声データＤ１１と、発信者の発話内容が記録された発信音声データＤ１２と、を有している。

生成手段２は、取得された音声データの内、各発話者が発話したと認識できる部分を決定し、発話時間情報を付与することで、複数の発話ブロック単一データを生成する。

本実施形態では、まず、図５に示すように、音声データ最適化サーバＰが、生成手段２により、音声データＤ１の時系列に沿って、複数の発話ブロック単一データＤ１ａ〜Ｄ１ｅを生成する。また、各発話ブロック単一データＤ１ａ〜Ｄ１ｅには、それぞれ発話ブロック識別情報ｄ１ａ〜ｄ１ｅが付与されている。
なお、発話ブロック単一データの決定方法としては、例えば、縦軸ａにおいて所定の閾値及び横軸ｔにおいて所定の経過時間を設定しておき、所定の閾値を超える音声データが、所定の経過時間持続した部分を発話ブロック単一データと決定する方法が考えられる。
また、所定の閾値を下回る音声データが、所定の経過時間持続した部分を無音部分と決定し、二つの無音部分の間に存在する音声データを一の発話ブロック単一データと決定する方法も考えられる。
また、所定の閾値を超えた際の、音声データＤ１全体の時系列におけるタイムスタンプを取得し、このタイムスタンプに基づいて、発話ブロック単一データを決定する方法も考えられる。

各発話ブロック識別情報ｄ１ａ〜ｄ１ｅは、音声データＤ１の時系列に沿って、各発話ブロック単一データＤ１ａ〜Ｄ１ｅそれぞれにおける発話の開始時刻から終了時刻までの横軸ｔの値を、発話時間情報Ｖ１ａ〜Ｖ１ｅとして有している（図７（ｂ）参照）。
また、各発話ブロック識別情報ｄ１ａ〜ｄ１ｅには、付与されている各発話ブロック単一データＤ１ａ〜Ｄ１ｅの発話者を示す発話者情報Ｓ１ａ〜Ｓ１ｅが紐づけられている（図７（ｂ）参照）。
なお、本実施形態においては、発話ブロック単一データＤ１ａの、発話の開始時における横軸ｔの値を、音声データＤ１全体における発話開始時刻の基準値、即ち０としている（図７（ｂ）参照）。

結合手段３は、生成された複数の発話ブロック単一データを結合し、発話ブロック結合データを生成する。

本実施形態では、図６に示すように、音声データ最適化サーバＰが、結合手段３により、音声データＤ１全体における各発話ブロック単一データＤ１ａ〜Ｄ１ｅ以外の部分（無音部分）を削除することで、各発話ブロック単一データＤ１ａ〜Ｄ１ｅを個々の独立した音声データとする。
そして、図７（ａ）に示すように、付与された各発話ブロック識別情報ｄ１ａ〜ｄ１ｅの各発話時間情報Ｖ１ａ〜Ｖ１ｅに従い、時系列順となるように、各発話ブロック単一データＤ１ａ〜Ｄ１ｅを結合することで、発話ブロック結合データＪ１を生成する。
また、このとき、音声データ最適化サーバＰは、各発話ブロック単一データＤ１ａ〜Ｄ１ｅに、発話ブロック結合データＪ１の時系列に沿って、発話の開始時刻から終了時刻までの横軸ｔの値を、結合後発話時間情報Ｙ１〜Ｙ５として付与する。
なお、各発話ブロック単一データＤ１ａ〜Ｄ１ｅを結合する順番は、必ずしも時系列順となるように結合する必要はなく、とのような順番であっても良い。

ここで、図７（ｂ）に示すように、音声データ最適化サーバＰは、発話ブロック結合データＪ１の生成と共に、発話ブロック結合データＪ１に対応したマッピング表Ａ１に示すような対応関係を、メモリ１０２に記憶する。

マッピング表Ａ１において、最左列には、各発話ブロック識別情報ｄ１ａ〜ｄ１ｅが記載され、その右隣りの列には、各発話ブロック識別情報ｄ１ａ〜ｄ１ｅに対応した各発話時間情報Ｖ１ａ〜Ｖ１ｅが記載され、その右隣りの列には、各発話ブロック識別情報ｄ１ａ〜ｄ１ｅに紐づけられた各発話者情報Ｓ１ａ〜Ｓ１ｅが記載され、その右隣りの列には、結合後発話時間情報Ｙ１〜Ｙ５が記載されている。
なお、各発話者情報Ｓ１ａ〜Ｓ１ｅにおいて、「Ｉｎ」は受信者、「Ｏｕｔ」は発信者を示している。

出力手段４は、生成された発話ブロック結合データを、テキスト化サービスに出力する。

本実施形態では、音声データ最適化サーバＰが、出力手段４を用いて、発話ブロック結合データＪ１を、テキスト化サービス１ｅに出力する。

ここで、テキスト化サービス１ｅに出力された発話ブロック結合データＪ１は、テキスト化サービス１ｅにより、文節単位又は単語単位で分割される。そして、テキスト化サービス１ｅは、分割された各文節又は各単語に、発話ブロック結合データＪ１の時系列に沿ってテキスト時間情報（図示せず）が付与された、分割テキストデータ（図示せず）を出力する。

受付手段５は、テキスト化サービスから、上述した分割テキストデータを受付ける。

また、受付けた分割テキストデータは、結合手段３により、テキスト時間情報の時系列に沿って、各文節又は各単語が結合され、結合テキストデータ（図示せず）として生成される。

マッピング手段７は、結合テキストデータに付与されているテキスト時間情報と結合後発話時間情報と、を対応付ける。

本実施形態では、図８（ａ）に示すように、音声データ最適化サーバＰが、マッピング手段７を用いて、結合テキストデータに付与されているテキスト時間情報と結合後発話時間情報Ｙ１〜Ｙ５と、を対応付け、マッピング表Ａ２に示すような対応関係を、メモリ１０２に記憶する。

マッピング表Ａ２において、右列には、中央列に記載された各結合後発話時間情報Ｙ１〜Ｙ５に対応した各発話ブロック単一データＤ１ａ〜Ｄ１ｅの、テキストデータＴ１ａ〜Ｔ１ｅが記載されている。また、マッピング表Ａ２の左列には、各テキストデータＴ１ａ〜Ｔ１ｅに付与された複数のテキスト識別情報ｔ１ａ〜ｔ１ｅが記載されている。

変換手段６は、テキスト識別情報を発話ブロック識別情報に変換する。

本実施形態では、音声データ最適化サーバＰが、変換手段６を用いて、マッピング表Ａ２における各テキスト識別情報ｔ１ａ〜ｔ１ｅを、マッピング表Ａ１に基づいて、各発話ブロック識別情報ｄ１ａ〜ｄ１ｅに変換する。
ここで、各発話ブロック識別情報ｄ１ａ〜ｄ１ｅは、発話時間情報Ｖ１ａ〜Ｖ１ｅを有している他、各発話者情報Ｓ１ａ〜Ｓ１ｅが紐づいていることから、音声データ最適化サーバＰは、上述した変換により、全体として図８（ｂ）に示すようなマッピング表Ａ３に示すような対応関係を、メモリ１０２に記憶する。

マッピング手段７は、複数の発話ブロック単一データと複数のテキストデータとを対応付け、一の発話ブロック単一データ及びこれに対応する一のテキストデータが格納された複数の個別音声データを生成する。

本実施形態では、音声データ最適化サーバＰが、マッピング手段７を用いて、各発話ブロック単一データＤ１ａ〜Ｄ１ｅ及び各テキストデータＴ１ａ〜Ｔ１ｅに付与された各発話ブロック識別情報ｄ１ａ〜ｄ１ｅを元に、各発話ブロック単一データＤ１ａ〜Ｄ１ｅと各テキストデータＴ１ａ〜Ｔ１ｅとを対応付け、一の発話ブロック単一データ及びこれに対応する一のテキストデータが格納された複数の個別音声データＸ１〜Ｘ５を生成する。

以上の処理を行うことにより生成された各個別音声データＸ１〜Ｘ５は、クラウドＣに格納される。
そして、受信者は、適宜オペレーター端末１ｂを介して、各個別音声データＸ１〜Ｘ５を取得する。

図９は、受信者が、オペレーター端末１ｂを介して、各個別音声データＸ１〜Ｘ５を取得する際の、画面表示例である。
受信者は、画面上で直接各テキストデータＴ１ａ〜Ｔ１ｅの内容を閲覧できる他、再生ボタンｂ１の操作により、画面上で各個別音声データＸ１〜Ｘ５の発話内容を再生することができる。
また、受信者は、ダウンロードボタンｂ２により、各個別音声データＸ１〜Ｘ５を個別にオペレーター端末１ｂに保存することができる。

なお、発話ブロック結合データＪ１は、通話により取得された複数の音声データを結合することにより生成されても良い。この際、発話ブロック結合データＪ１に含まれる発話内容や通話目的の関連性を高めるために、例えば、音声データに対して「修理に関する問い合わせ」や「顧客情報に関する問い合わせ」等、カテゴリー情報を紐づけておき、カテゴリー情報に基づいて結合を行うことが好ましい。

次に、図１０〜図１３を用いて、音声データ最適化システム１が備える、効率的かつ正確なテキスト化を補助する機能について説明する。
なお、図１０〜図１３に示す各音声データの横軸ｔは時刻、縦軸ａは振幅（音量）を表している。

図１０においては、発信者と受信者との会話により取得された２つの音声データＤ２及びＤ３が、クラウドＣに格納されている場合を想定する。

音声データＤ２は、発信者の発話内容が記録された発信音声データＤ２１と、受信者の発話内容が記録された受信音声データＤ２２と、を有している。
また、音声データＤ２は、音声データ最適化サーバＰの生成手段２により、時系列に沿って、複数の発話ブロック単一データＤ２ａ〜Ｄ２ｃが生成されており、各発話ブロック単一データＤ２ａ〜Ｄ２ｃには、それぞれ発話ブロック識別情報ｄ２ａ〜ｄ２ｃが付与されている。

音声データＤ３は、発信者の発話内容が記録された発信音声データＤ３１と、受信者の発話内容が記録された受信音声データＤ３２と、を有している。
また、音声データＤ３は、音声データ最適化サーバＰの生成手段２により、時系列に沿って、複数の発話ブロック単一データＤ３ａ〜Ｄ３ｃが生成されており、各発話ブロック単一データＤ３ａ〜Ｄ３ｃには、それぞれ発話ブロック識別情報ｄ３ａ〜ｄ３ｃが付与されている。

ここで、音声データ最適化サーバＰは、結合手段３により、発話ブロック結合データの総時間を所定の時間以上に変更することができる。
例えば、本実施例では、音声データ最適化サーバＰは、発話ブロック結合データの総時間を、予め設定された所定の時間以上となるまで、複数の発話ブロック単一データの結合を行う。

即ち、まず、音声データ最適化サーバＰは、結合手段３により、発話ブロック結合データＪ２及びＪ３を生成する（矢印ａ）。このとき、発話ブロック結合データＪ２及びＪ３それぞれの総時間が３０（ｓ）及び４０（ｓ）であり、予め設定された所定の時間が６０（ｓ）であるとすると、音声データ最適化サーバＰは、発話ブロック結合データＪ２及びＪ３をさらに結合する（矢印ｂ）。
こうすることで、音声データ最適化サーバＰは、総時間が６０（ｓ）以上（７０（ｓ））の発話ブロック結合データＪ４を生成する。

なお、上述したような、発信者と受信者との会話により取得された音声データがクラウドＣに複数格納されている場合であっても、発話ブロック単一データの結合の数や順番は特に限定されない。

図１１〜図１３においては、１人の発話者が間隔を空けて複数回発話することにより取得された、１つの音声データＤ４が、クラウドＣに格納されている場合を想定する。

図１１に示すように、音声データＤ４は、生成手段２により、音声データＤ４の時系列に沿って、複数の発話ブロック単一データＤ４ａ〜Ｄ４ｃが生成されており、各発話ブロック単一データＤ４ａ〜Ｄ４ｃには、それぞれ発話ブロック識別情報ｄ４ａ〜ｄ４ｃが付与されている。

各発話ブロック識別情報ｄ４ａ〜ｄ４ｃは、音声データＤ４の時系列に沿って、各発話ブロック単一データＤ４ａ〜Ｄ４ｃそれぞれについて、発話の開始時刻から終了時刻までの横軸ｔの値を、発話時間情報Ｖ４ａ〜Ｖ４ｃとして有している。

なお、発話時間情報Ｖ４ａは０〜２０（ｓ）、発話時間情報Ｖ４ｂは２２〜３８（ｓ）、発話時間情報Ｖ４ｃは４０〜５１（ｓ）とする。即ち、各発話ブロック単一データＤ４ａ〜Ｄ４ｃの総時間は、それぞれ２０（ｓ）、１６（ｓ）、１１（ｓ）である。

ここで、音声データ最適化サーバＰは、結合手段３により、発話ブロック単一データ又は発話ブロック結合データの少なくとも何れか一方を一又は二以上含む複数の各データの組合せについて、各データの総時間よりも大きい所定の単位時間の倍数の内、最も小さい倍数である基準倍数を決定し、各データにおける基準倍数の合計値が最小となる組合せを決定することができる。

本実施形態では、各データの組合せとして、図１１の表Ｚの左列に示すように、（ｉ）〜（ｖ）のような組合せが考えられる。
例えば、（ｉ）の組合せは、結合されていない発話ブロック単一データＤ４ａ〜Ｄ４ｃが含まれていることを示している。また、（ｉｉ）の組合せは、発話ブロック単一データＤ４ａ及びＤ４ｂを結合した発話ブロック結合データと、発話ブロック単一データＤ４ｃと、が含まれていることを示している。

ここで、テキスト化サービス１ｅは、独自に音声データの総時間に基づく料金体系を決定しており、特に、所定の秒単位で課金されていく方式を採用している場合が多い。
本実施形態では、例えば、テキスト化サービス１ｅが、１５秒単位で課金されていく方式を採用している場合を想定する。

この際、例えば、発話ブロック単一データＤ４ａは、総時間が２０（ｓ）であるから、２０よりも大きい１５の倍数の内、最も小さい倍数である「３０」が、発話ブロック単一データＤ４ａの基準倍数と決定される。
以下同様にして、発話ブロック単一データＤ４ｂの基準倍数は「３０」、発話ブロック単一データＤ４ｃの基準倍数は「１５」と決定される。
よって、（ｉ）の組合せに含まれる各データについての基準倍数の合計値は、表Ｚの右列に示すように、「７５」と決定される。

上述したようにして、（ｉｉ）〜（ｖ）の組合せについても、基準倍数の合計値を決定すると、表Ｚの右列に示すようになり、（ｉｉ）〜（ｖ）の組合せの内、基準倍数の合計値が最小となる組合せは、（ｉｉ）又は（ｖ）の組合せと決定される。

以上より、出力手段４は、（ｉｉ）又は（ｖ）の組合せの何れか一方を、テキスト化サービス１ｅに出力する。

発話音量調節手段８は、音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を調節する。

本実施形態では、図１２に示すように、音声データ最適化サーバＰは、発話音量調節手段８を用いて、各発話ブロック単一データＤ４ａ〜Ｄ４ｃの振幅を、増大（矢印ｃ）又は減少（矢印ｄ）させることで、発話音量を増大又は減少させることができる。
なお、この処理は、各発話ブロック単一データＤ４ａ〜Ｄ４ｃに個別に行うことや、音声データＤ４全体に対して行うことも、当然に可能である。

発話速度調節手段９は、音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を調節する。

本実施形態では、図１３（ａ）に示すように、音声データ最適化サーバＰは、発話速度調節手段９を用いて、各発話ブロック単一データＤ４ａ〜Ｄ４ｃの波長を、増大（矢印ｅ）又は減少（矢印ｆ）させることで、発話速度を増大又は減少させることができる。
なお、この処理は、各発話ブロック単一データＤ４ａ〜Ｄ４ｃに個別に行うことや、音声データＤ４全体に対して行うことも、当然に可能である。

時間間隔変更手段１０は、発話速度調節手段９により発話速度が調節された音声データ、発話ブロック単一データ又は発話ブロック結合データに付与された発話時間情報及び結合後発話時間情報の時間間隔を、発話速度に応じて変更する。

本実施形態では、音声データ最適化サーバＰは、時間間隔変更手段１０を用いて、発話ブロック識別情報ｄ４ａ〜ｄ４ｃが有する発話時間情報Ｖ４ａ〜Ｖ４ｃ及び結合後発話時間情報Ｙ４ａ〜Ｙ４ｃを、発話速度調節手段９を用いて調節された発話速度に応じて変更することができる。
例えば、矢印ｈのように、波長を増大させることで、各発話ブロック単一データＤ４ａ〜Ｄ４ｃの発話速度を２／３倍速とした場合、音声データ最適化サーバＰは、各発話ブロック識別情報ｄ４ａ〜ｄ４ｃが有する発話時間情報Ｖ４ａ〜Ｖ４ｃ及び結合後発話時間情報Ｙ４ａ〜Ｙ４ｃを、３／２倍に変更することで、新たな発話時間情報Ｖ４ａ´〜Ｖ４ｃ´及び結合後発話時間情報Ｙ４ａ´〜Ｙ４ｃ´を生成する。

このとき、音声データ最適化サーバＰは、図１３（ｂ）に示すように、マッピング表Ａ４に示す対応関係を、マッピング表Ａ５に示す対応関係に変更し、メモリ１０２に記憶する。即ち、音声データ最適化サーバＰは、発話時間情報Ｖ４ａ〜Ｖ４ｃ及び結合後発話時間情報Ｙ４ａ〜Ｙ４ｃを、発話時間情報Ｖ４ａ´〜Ｖ４ｃ´及び結合後発話時間情報Ｙ４ａ´〜Ｙ４ｃ´に変更する（矢印ｇ）。

なお、発話音量調節手段８や発話速度調節手段９による発話音量や発話速度の調節は、結合手段３を用いた複数の発話ブロック単一データの結合前又は結合後、何れのタイミングでも行うことができる。
例えば、生成された全ての発話ブロック単一データを結合することにより生成された発話ブロック結合データの総時間が、予め設定された所定の時間に満たない場合には、音声データ最適化サーバＰに、後述する発話速度調節手段９により、発話速度を遅くする処理を行わせる構成としても良い。

本実施形態によれば、発話者が発話していない無音部分が含まれていない発話ブロック結合データＪ１〜Ｊ４を生成することが可能となる。即ち、テキスト化に必要な部分のみを一つ音声データとして生成することが可能となるため、音声データの総時間に応じて費用が変動するテキスト化サービスを利用する場合、極力費用を抑えて、テキストデータを取得することが可能となる。

また、発話ブロック結合データＪ１に含まれる各発話ブロック単一データＤ１ａ〜Ｄ１ｅに対して、発話内容に適合したテキストデータＴ１ａ〜Ｔ１ｅをマッピングし、一の発話ブロック単一データ及びこれに対応する一のテキストデータが格納された複数の個別音声データＸ１〜Ｘ５を生成及び取得することが可能となる。

また、音声データ最適化サーバＰが、結合手段３により、発話ブロック結合データＪ２及びＪ３をさらに結合し、総時間が６０（ｓ）以上の発話ブロック結合データＪ４を生成することで、テキスト化サービスへ出力した際の発話ブロック結合データの認識率を向上させることが可能となる。

また、音声データ最適化サーバＰが、結合手段３により、基準倍数の合計値が最小となる発話ブロック単一データ又は発話ブロック結合データ組合せを決定することで、テキスト化の際、無駄な費用の発生を抑え、効率的にテキストデータを取得することが可能となる。

また、音声データ最適化サーバＰが、結合手段３により、受信音声データＤ１１及び発信音声データＤ１２に含まれる複数の発話ブロック単一データＤ１ａ〜Ｄ１ｅに付与された発話ブロック識別情報ｄ１ａ〜ｄ１ｅを元に、各発話ブロック単一データＤ１ａ〜Ｄ１ｅを経時的に結合することで、通話により取得された音声データＤ１を、会話の流れに沿ってテキスト化することが可能となる。また、受信音声データＤ１１及び発信音声データＤ１２における発話のタイミングに被りが発生した場合であっても、各音声データを正確にテキスト化することが可能となる。

また、音声データ最適化サーバＰが、発話音量調節手段８により、音声データＤ５が有する複数の発話ブロック単一データＤ５ａ〜Ｄ５ｃの発話音量を増大させることで、テキスト化サービスの、発話ブロック単一データＤ５ａ〜Ｄ５ｃに対する音声の認識率を向上させ、正確にテキスト化されたデータを取得することができる。

また、音声データ最適化サーバＰが、発話速度調節手段９により、音声データＤ５が有する複数の発話ブロック単一データＤ５ａ〜Ｄ５ｃの発話速度を減少させることで、テキスト化サービスの、各発話ブロック単一データＤ５ａ〜Ｄ５ｃに対する音声の認識率を向上させ、正確にテキスト化されたデータを取得することができる。

また、音声データ最適化サーバＰが、時間間隔変更手段１０により、発話速度調節手段９により発話速度が調節された各発話ブロック単一データＤ５ａ〜Ｄ５ｃの総時間と、これらのデータに付与された発話ブロック識別情報ｄ５ａ〜ｄ５ｃの時間間隔との整合性を確保でき、常に、各発話ブロック単一データＤ５ａ〜Ｄ５ｃと発話ブロック識別情報ｄ５ａ〜ｄ５ｃとの正確なマッピングを行うことが可能となる。

なお、図１０〜図１３において示した処理は、発信者と受信者との会話により取得された音声データに対しても、当然に適用される。
また、本実施形態に係る音声データ最適化システム１は、会議等３人以上の発話者が存在するような場面で取得された音声データに対しても、当然に適用される。

１音声データ最適化システム
１０１ＣＰＵ
１０２メモリ
１０３記憶部
１０４通信部
１０５入力部
１０６出力部
１０７オペレーティングシステム
１０８音声データ最適化プログラム
２生成手段
３結合手段
４出力手段
５受付手段
６変換手段
７マッピング手段
８発話音量調節手段
９発話速度調節手段
１０時間間隔変更手段
１ａ通話システム
１ｂオペレーター端末
１ｃ受信者通話部
１ｄ発信者通話部
１ｅテキスト化サービス
Ｄ１〜Ｄ５音声データ
Ｄ１１受信音声データ
Ｄ１２発信音声データ
Ｄ１ａ〜Ｄ１ｅ、Ｄ２ａ〜Ｄ２ｅ、Ｄ３ａ〜Ｄ３ｅ、Ｄ４ａ〜Ｄ４ｅ、Ｄ５ａ〜Ｄ５ｅ発話ブロック単一データ
ｄ１ａ〜ｄ１ｅ、ｄ２ａ〜ｄ２ｅ、ｄ３ａ〜ｄ３ｅ、ｄ４ａ〜ｄ４ｅ、ｄ５ａ〜ｄ５ｅ発話ブロック識別情報
Ｖ１ａ〜Ｖ１ｅ、Ｖ１ａ´〜Ｖ１ｅ´ 発話時間情報
Ｙ１ａ〜Ｙ１ｅ、Ｙ１ａ´〜Ｙ１ｅ´ 結合後発話時間情報
Ｓ１ａ〜Ｓ１ｅ発話者情報
Ｔ１ａ〜Ｔ１ｅテキストデータ
ｔ１ａ〜ｔ１ｅテキスト識別情報
Ｊ１〜Ｊ４発話ブロック結合データ
Ａ１〜Ａ５マッピング表
Ｘ１〜Ｘ５個別音声データ
Ｃクラウド
Ｐ音声データ最適化サーバ
Ｎネットワーク
Ｚ表

Claims

発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、単一の音声データである発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備え、
前記発話ブロック結合データに含まれる前記各発話ブロック単一データの開始時刻又は終了時刻の少なくとも何れか一方を、前記発話ブロック結合データの時系列に沿って、結合後発話時間情報として付与することを特徴とする音声データ最適化システム。
前記発話ブロック結合データに対応したテキストデータ及び前記テキストデータに付与されたテキスト時間情報を受付ける受付手段と、
前記結合後発話時間情報及び前記テキスト時間情報に基づいて、前記各発話ブロック単一データと前記テキストデータとを対応付けるマッピング手段と、を備えることを特徴とする、請求項１に記載の音声データ最適化システム。
前記結合手段は、結合する前記各発話ブロック単一データの数及び組み合わせの少なくとも何れか一方を変更することで、前記発話ブロック結合データの総時間を所定の時間以上に変更することを特徴とする、請求項１又２に記載の音声データ最適化システム。
前記音声データは、発信者と受信者との会話により取得され、発信者の発話内容が記録された発信音声データと、受信者の発話内容が記録された受信音声データとを含み、
前記結合手段は、前記発信音声データと前記受信音声データそれぞれに付与された前記発話時間情報を元に、前記各発話ブロック単一データを経時的に結合することを特徴とする、請求項１〜３の何れかに記載の音声データ最適化システム。
前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話音量を調節する発話音量調節手段を備えることを特徴とする、請求項１〜４の何れかに記載の音声データ最適化システム。
前記音声データ、発話ブロック単一データ又は発話ブロック結合データの発話速度を調節する発話速度調節手段を備えることを特徴とする、請求項１〜５の何れかに記載の音声データ最適化システム。
前記発話速度調節手段により発話速度が調節された前記音声データ、発話ブロック単一データ又は発話ブロック結合データに付与された前記発話時間情報の時間間隔を、発話速度に応じて変更する時間間隔変更手段を備えることを特徴とする、請求項６に記載の音声データ最適化システム。
コンピュータを、発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、単一の音声データである発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、
前記発話ブロック結合データに含まれる前記各発話ブロック単一データの開始時刻又は終了時刻の少なくとも何れか一方を、前記発話ブロック結合データの時系列に沿って、結合後発話時間情報として付与する処理と、として機能させることを特徴とする音声データ最適化プログラム。
発話者の発話内容が記録された音声データから、発話時間情報が付与された複数の発話ブロック単一データを生成する生成手段と、
前記各発話ブロック単一データを結合し、単一の音声データである発話ブロック結合データを生成する結合手段と、
前記発話ブロック結合データを出力する出力手段と、を備え、
前記発話ブロック結合データに含まれる前記各発話ブロック単一データの開始時刻又は終了時刻の少なくとも何れか一方を、前記発話ブロック結合データの時系列に沿って、結合後発話時間情報として付与することを特徴とする音声データ最適化装置。