JP2021021824A

JP2021021824A - 単語検出システム、単語検出プログラムおよび単語検出方法

Info

Publication number: JP2021021824A
Application number: JP2019137996A
Authority: JP
Inventors: 原　博幸; Hiroyuki Hara; 博幸原
Original assignee: Kyocera Document Solutions Inc
Current assignee: Kyocera Document Solutions Inc
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2021-02-18

Abstract

【課題】音声の背景にノイズが存在する音声データからの単語の検出の精度を向上することができる単語検出システム、単語検出プログラムおよび単語検出方法を提供する。【解決手段】単語検出システムは、検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルとしての単語検出学習モデルを生成する学習モデル生成部と、入力された音声データとしての入力音声データから単語検出学習モデルを使用して検出対象単語を検出する単語検出部とを備え、学習モデル生成部は、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に単語検出学習モデルを生成する（Ｓ１２１〜Ｓ１２３）ことを特徴とする。【選択図】図１１

Description

本発明は、音声データから単語を検出する単語検出システム、単語検出プログラムおよび単語検出方法に関する。

従来、音声データから単語を検出する技術が知られている（例えば、特許文献１−２参照。）。

特開平４−２３３５９９号公報特開２０００−２５９１６７号公報

しかしながら、従来の技術においては、音声データにおいて音声の背景にノイズが存在する場合に、音声データからの単語の検出の精度が低下するという問題がある。

そこで、本発明は、音声の背景にノイズが存在する音声データからの単語の検出の精度を向上することができる単語検出システム、単語検出プログラムおよび単語検出方法を提供することを目的とする。

本発明の単語検出システムは、検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成部と、前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出部とを備え、前記学習モデル生成部は、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成することを特徴とする。

この構成により、本発明の単語検出システムは、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に機械学習の学習モデルを生成し、この学習モデルを使用して特定音声データから検出対象単語を検出するので、音声の背景にノイズが存在する特定音声データからの単語の検出の精度を向上することができる。

本発明の単語検出システムは、単語の検出対象の音声データとしての検出対象音声データを前記特定音声データから複数切り出す音声データ切り出し部を備え、前記単語検出部は、前記音声データ切り出し部によって前記特定音声データから切り出された前記検出対象音声データから前記検出対象単語を検出することによって、前記特定音声データから前記検出対象単語を検出し、前記検出対象音声データは、全ての前記検出対象単語のうち音声の長さが最も長い前記検出対象単語の音声の長さとしての最長単語時間より長い特定の時間分の音声データであり、前記音声データ切り出し部は、前記特定音声データに前記検出対象単語が含まれる場合に、この検出対象単語が少なくとも１つの前記検出対象音声データに必ず含まれるように、前記特定音声データにおける時間において複数の前記検出対象音声データのそれぞれの切り出しの開始時点をずらしても良い。

この構成により、本発明の単語検出システムは、特定音声データに検出対象単語が含まれる場合に、この検出対象単語が少なくとも１つの検出対象音声データに必ず含まれるように、特定音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点をずらして、最長単語時間より長い特定の時間分の検出対象音声データを特定音声データから切り出し、切り出した検出対象音声データから検出対象単語を検出することによって特定音声データから検出対象単語を検出するので、特定音声データからの検出対象単語の検出のリアルタイム性を向上することができる。

本発明の単語検出システムにおいて、前記特定の時間は、前記最長単語時間の２倍であり、前記音声データ切り出し部は、前記特定音声データにおける時間において複数の前記検出対象音声データのそれぞれの切り出しの開始時点を前記最長単語時間分ずつずらしても良い。

この構成により、本発明の単語検出システムは、特定音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点を最長単語時間分ずつずらして、最長単語時間の２倍の時間分の検出対象音声データを特定音声データから切り出し、切り出した検出対象音声データから検出対象単語を検出することによって特定音声データから検出対象単語を検出するので、特定音声データから切り出す検出対象音声データの数を抑えることによって特定音声データからの検出対象単語の検出の処理負担を抑えつつ、検出対象音声データの音声の長さを抑えることによって特定音声データからの検出対象単語の検出のリアルタイム性を向上することができる。

本発明の単語検出プログラムは、検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成部と、前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出部とをコンピューターに実現させ、前記学習モデル生成部は、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成することを特徴とする。

この構成により、本発明の単語検出プログラムを実行するコンピューターは、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に機械学習の学習モデルを生成し、この学習モデルを使用して特定音声データから検出対象単語を検出するので、音声の背景にノイズが存在する特定音声データからの検出対象単語の検出の精度を向上することができる。

本発明の単語検出方法は、検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成ステップと、前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出ステップとを備え、前記学習モデル生成ステップは、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成するステップであることを特徴とする。

この構成により、本発明の単語検出方法は、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に機械学習の学習モデルを生成し、この学習モデルを使用して特定音声データから検出対象単語を検出するので、音声の背景にノイズが存在する特定音声データからの検出対象単語の検出の精度を向上することができる。

本発明の単語検出システム、単語検出プログラムおよび単語検出方法は、音声の背景にノイズが存在する音声データからの単語の検出の精度を向上することができる。

１台のコンピューターによって構成される場合の本発明の一実施の形態に係る単語検出システムのブロック図である。図１に示す検出対象単語情報の一例を示す図である。図１に示す単語検出学習モデルの構成の一例を示す図である。図３に示す単語検出学習モデルの内容を示す図である。図１に示すデータセットの入力データの一例を示す図である。図１に示すデータセットの正解データの一例を示す図である。図１に示すデータセット生成用音声データの一例を示す図である。図７に示すデータセット生成用音声データのスペクトログラムを示す図である。データセットを生成する場合の図１に示す単語検出システムの動作のフローチャートである。図６に示す正解データと、図８に示すスペクトログラムとの関係を示す図である。単語検出学習モデルを生成する場合の図１に示す単語検出システムの動作のフローチャートである。図１１に示す動作によって生成された単語検出学習モデルに図５に示す入力データを入力した場合の出力結果の一例を示す図である。入力音声データから単語を検出する場合の図１に示す単語検出システムの動作のフローチャートである。（ａ）図１に示す単語検出システムに入力される入力音声データの一例を示す図である。（ｂ）図１４（ａ）に示す入力音声データのうち、１つ目の検出対象音声データの範囲を示す図である。（ｃ）図１４（ａ）に示す入力音声データのうち、２つ目の検出対象音声データの範囲を示す図である。

以下、本発明の実施の形態について、図面を用いて説明する。

まず、本発明の一実施の形態に係る単語検出システムの構成について説明する。

図１は、１台のコンピューターによって構成される場合の本実施の形態に係る単語検出システム１０のブロック図である。

図１に示すように、単語検出システム１０は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部１１と、種々の情報を表示する例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などの表示デバイスである表示部１２と、スピーカー１３と、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部１４と、各種の情報を記憶する例えば半導体メモリー、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの不揮発性の記憶デバイスである記憶部１５と、単語検出システム１０全体を制御する制御部１６とを備えている。

記憶部１５は、通信部１４から入力された音声データとしての入力音声データから単語を検出するための単語検出プログラム１５ａを記憶している。単語検出プログラム１５ａは、例えば、単語検出システム１０の製造段階で単語検出システム１０にインストールされていても良いし、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリーなどの外部の記憶媒体から単語検出システム１０に追加でインストールされても良いし、ネットワーク上から単語検出システム１０に追加でインストールされても良い。

記憶部１５は、検出対象の単語としての検出対象単語を示す検出対象単語情報１５ｂを記憶することができる。

図２は、検出対象単語情報１５ｂの一例を示す図である。

図２に示す検出対象単語情報１５ｂは、検出対象単語と、検出対象単語の音声データとの組み合わせを、検出対象単語毎に示している。図２において、音声データは、音声波形で示されている。

図１に示す制御部１６は、操作部１１または通信部１４を介して入力された指示に応じて検出対象単語を検出対象単語情報１５ｂに追加したり、操作部１１または通信部１４を介して入力された指示に応じて検出対象単語を検出対象単語情報１５ｂから削除したりすることができる。同様に、制御部１６は、通信部１４を介して入力された、検出対象単語の音声データを検出対象単語情報１５ｂに追加したり、操作部１１または通信部１４を介して入力された指示に応じて検出対象単語の音声データを検出対象単語情報１５ｂから削除したりすることができる。

記憶部１５は、音声データから検出対象単語を検出する機械学習の学習モデルである単語検出学習モデル１５ｃを記憶することができる。記憶部１５は、単語検出学習モデル１５ｃと同様の単語検出学習モデルを、単語検出学習モデル１５ｃ以外にも少なくとも１つ記憶することができる。記憶部１５は、検出対象単語情報１５ｂに示される検出対象単語毎に単語検出学習モデルを記憶することができる。例えば、単語検出学習モデル１５ｃの検出対象単語は、「ａｃｔｉｖａｔｅ」という単語でも良い。

図３は、単語検出学習モデル１５ｃの構成の一例を示す図である。図４は、図３に示す単語検出学習モデル１５ｃの内容を示す図である。

図３および図４に示す単語検出学習モデル１５ｃは、５５１１個のスペクトログラムが入力であり、１３７５個の出力である。単語検出学習モデル１５ｃは、ディープラーニングのＲＮＮ（ＲＥＣＵＲＲＥＮＴＮｅｕｒａｌＮｅｔｗｏｒｋ（再帰型ニューラルネットワーク））である。

図１に示すように、記憶部１５は、単語検出学習モデル１５ｃの学習用のデータセット１５ｄを記憶することができる。データセット１５ｄは、５５１１個のスペクトログラムの入力データと、１３７５個の正解データとを含んでいる。記憶部１５は、単語検出学習モデル１５ｃの学習用のデータセットを、データセット１５ｄ以外にも少なくとも１つ記憶することができる。同様に、記憶部１５は、単語検出学習モデル１５ｃ以外の単語検出学習モデルの学習用のデータセットを、単語検出学習モデル毎に少なくとも１つずつ記憶することができる。

図５は、データセット１５ｄの入力データの一例を示す図である。

図５に示す入力データは、１０秒間を５５１１個に分割したスペクトログラムを示すデータである。図５においては、理解を容易にするために、周波数は、１７段階で示されているが、実際には、入力データにおいて、周波数は、１０１段階に分割されている。図５において、濃度が濃い領域ほど、頻度が高いことを示す。

図６は、データセット１５ｄの正解データの一例を示す図である。

図６に示す正解データは、１０秒間を１３７５個に分割した期間毎に、データセット１５ｄの検出対象単語に関係する期間である場合には１を示し、データセット１５ｄの検出対象単語に関係しない期間である場合には０を示している。

図１に示すように、記憶部１５は、データセット１５ｄを生成するための音声データ（以下「データセット生成用音声データ」という。）１５ｅを記憶することができる。記憶部１５は、データセット生成用音声データ１５ｅ以外にも、データセットを生成するためのデータセット生成用音声データを、データセット毎に少なくとも１つずつ記憶することができる。データセット生成用音声データは、検出対象単語の音声の背景に様々なノイズが存在する音声データである。

図７は、データセット生成用音声データ１５ｅの一例を示す図である。図８は、図７に示すデータセット生成用音声データ１５ｅのスペクトログラムを示す図である。

図７において、データセット生成用音声データ１５ｅは、音声波形で示されている。図７および図８に示すデータセット生成用音声データ１５ｅは、例えば、４４１００Ｈｚでサンプリングされた１０秒間の音声データである。図８に示すデータセット生成用音声データ１５ｅは、検出対象単語としての「ａｃｔｉｖａｔｅ」の音声と、「ｉｎｎｏｃｅｎｔ」の音声と、検出対象単語としての「ａｃｔｉｖａｔｅ」の音声と、「ｂａｂｙ」の音声とを順番に含む音声データである。

図１に示す制御部１６は、通信部１４を介して入力されたデータセット生成用音声データを記憶部１５に追加したり、操作部１１または通信部１４を介して入力された指示に応じてデータセット生成用音声データを記憶部１５から削除したりすることができる。

制御部１６は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、プログラムおよび各種のデータを記憶しているＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）と、制御部１６のＣＰＵの作業領域として用いられるメモリーとしてのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）とを備えている。制御部１６のＣＰＵは、記憶部１５または制御部１６のＲＯＭに記憶されているプログラムを実行する。

制御部１６は、単語検出プログラム１５ａを実行することによって、単語検出学習モデルを生成する学習モデル生成部１６ａと、単語検出学習モデルを使用して、入力音声データから検出対象単語を検出する単語検出部１６ｂと、単語の検出対象の音声データ（以下「検出対象音声データ」という。）を入力音声データから切り出す音声データ切り出し部１６ｃとを実現する。

次に、単語検出システム１０の動作について説明する。

まず、データセットを生成する場合の単語検出システム１０の動作について説明する。

なお、以下においては、記憶部１５に記憶されるデータセットを代表して、データセット１５ｄについて説明する。

図９は、データセットを生成する場合の単語検出システム１０の動作のフローチャートである。

図９に示すように、学習モデル生成部１６ａは、１０秒間を５５１１個に分割して周波数を１０１段階に分割したデータセット生成用音声データ１５ｅのスペクトログラムである入力データを生成する（Ｓ１０１）。例えば、学習モデル生成部１６ａは、図５に示す入力データを生成する。

次いで、学習モデル生成部１６ａは、データセット生成用音声データ１５ｅに応じた音声をスピーカー１３によって出力することを開始する（Ｓ１０２）とともに、データセット生成用音声データ１５ｅに応じた音声の出力の期間のうち、検出対象単語に関係する期間の指定を操作部１１を介して受け付けることを開始する（Ｓ１０３）。例えば、学習モデル生成部１６ａは、データセット生成用音声データ１５ｅに応じた音声をスピーカー１３によって出力している場合に、データセット生成用音声データ１５ｅの検出対象単語が出現したタイミングで作業者に操作部１１を介して特定の操作を入力させることによって、検出対象単語に関係する期間であることを作業者に指定させる。

学習モデル生成部１６ａは、Ｓ１０３の処理の後、データセット生成用音声データ１５ｅに応じた音声の出力が終了したと判断するまで、データセット生成用音声データ１５ｅに応じた音声の出力が終了したか否かを判断する（Ｓ１０４）。

学習モデル生成部１６ａは、データセット生成用音声データ１５ｅに応じた音声の出力が終了したとＳ１０４において判断すると、Ｓ１０３において受け付けを開始した指定に応じてデータセット１５ｄの正解データを生成する（Ｓ１０５）。例えば、学習モデル生成部１６ａは、図８に示すデータセット生成用音声データ１５ｅに対して、図１０に示すように、１０秒間を１３７５個に分割した期間のうち、検出対象単語に関係すると指示された期間については１を示し、検出対象単語に関係しないと指示された期間については０を示すことによって、図６に示す正解データを生成する。なお、図８に示すデータセット生成用音声データ１５ｅにおいて、検出対象単語は、上述したように「ａｃｔｉｖａｔｅ」という単語である。

学習モデル生成部１６ａは、Ｓ１０５の処理の後、Ｓ１０１において生成した入力データと、Ｓ１０５において生成した正解データとを含むデータセット１５ｄを生成して（Ｓ１０６）、図９に示す動作を終了する。

次に、単語検出学習モデルを生成する場合の単語検出システム１０の動作について説明する。

図１１は、単語検出学習モデルを生成する場合の単語検出システム１０の動作のフローチャートである。

なお、以下においては、記憶部１５に記憶される単語検出学習モデルを代表して、単語検出学習モデル１５ｃについて説明する。

図１１に示すように、学習モデル生成部１６ａは、記憶部１５に記憶されている、単語検出学習モデル１５ｃの学習用のデータセットのうち、未だ今回の図１１に示す動作の対象にしていないデータセットの１つのみを対象にする（Ｓ１２１）。

次いで、学習モデル生成部１６ａは、現在の対象のデータセットを使用して、単語検出学習モデル１５ｃの学習を実行する（Ｓ１２２）。

次いで、学習モデル生成部１６ａは、記憶部１５に記憶されている、単語検出学習モデル１５ｃの学習用のデータセットのうち、未だ今回の図１１に示す動作の対象にしていないデータセットが存在するか否かを判断する（Ｓ１２３）。

学習モデル生成部１６ａは、記憶部１５に記憶されている、単語検出学習モデル１５ｃの学習用のデータセットのうち、未だ今回の図１１に示す動作の対象にしていないデータセットが存在するとＳ１２３において判断すると、Ｓ１２１の処理を実行する。

学習モデル生成部１６ａは、記憶部１５に記憶されている、単語検出学習モデル１５ｃの学習用のデータセットのうち、未だ今回の図１１に示す動作の対象にしていないデータセットが存在しないとＳ１２３において判断すると、図１１に示す動作を終了する。

図１２は、図１１に示す動作によって生成された単語検出学習モデル１５ｃに図５に示す入力データを入力した場合の出力結果の一例を示す図である。

図１２に示すように、図８に示すデータセット生成用音声データ１５ｅのスペクトログラムにおいて「ａｃｔｉｖａｔｅ」という検出対象単語が出現する期間の直後の期間において出力値が大きくなっている。したがって、検出対象単語の出現を判定するための下限の閾値（以下「単語判定閾値」という。）として、例えば０．５など、適切な値が図１２に示す出力結果に対して適用されることによって、データセット生成用音声データ１５ｅから検出対象単語が適切に検出されることになる。

次に、入力音声データから単語を検出する場合の単語検出システム１０の動作について説明する。

図１３は、入力音声データから単語を検出する場合の単語検出システム１０の動作のフローチャートである。

音声データ切り出し部１６ｃは、通信部１４から音声データが入力されると、図１３に示す動作を開始する。

図１３に示すように、音声データ切り出し部１６ｃは、入力音声データにおける時間において検出対象音声データの切り出しを開始する時点（以下「切り出し開始時点」）として、入力音声データにおける最初の時点を設定する（Ｓ１４１）。

次いで、音声データ切り出し部１６ｃは、現在設定されている切り出し開始時点から、検出対象単語情報１５ｂに含まれる全ての検出対象単語のうち、音声の長さが最も長い検出対象単語の音声の長さ（以下「最長単語時間」という。）の２倍の長さの時間分の検出対象音声データを入力音声データから切り出す（Ｓ１４２）。

単語検出部１６ｂは、Ｓ１４２の処理の後、直前のＳ１４２において切り出された検出対象音声データから１０秒間を５５１１個に分割して周波数を１０１段階に分割したスペクトログラムである入力データを生成する（Ｓ１４３）。

次いで、単語検出部１６ｂは、検出対象単語情報１５ｂに含まれる検出対象単語のうち、直前のＳ１４２において切り出された検出対象音声データに対して、未だ対象にしていない検出対象単語の１つのみを対象にする（Ｓ１４４）。

次いで、単語検出部１６ｂは、記憶部１５に記憶されている単語検出学習モデルのうち、現在の対象の検出対象単語の単語検出学習モデルに、Ｓ１４３において生成した入力データを入力することによって、出力結果を得る（Ｓ１４５）。

次いで、単語検出部１６ｂは、Ｓ１４５において得た出力結果に対して、現在の対象の検出対象単語に対して設定されている単語判定閾値を適用することによって、直前のＳ１４２において切り出された検出対象音声データから現在の対象の検出対象単語が検出されたか否かを判断する（Ｓ１４６）。

単語検出部１６ｂは、直前のＳ１４２において切り出された検出対象音声データから現在の対象の検出対象単語が検出されたとＳ１４６において判断すると、入力音声データから現在の対象の検出対象単語が検出された場合の特定の動作を実行する（Ｓ１４７）。ここで、特定の動作とは、例えば、表示部１２に特定の警告を表示する動作である。

単語検出部１６ｂは、直前のＳ１４２において切り出された検出対象音声データから現在の対象の検出対象単語が検出されなかったとＳ１４６において判断するか、Ｓ１４７の処理が終了すると、検出対象単語情報１５ｂに含まれる検出対象単語のうち、直前のＳ１４２において切り出された検出対象音声データに対して、未だ対象にしていない検出対象単語が存在するか否かを判断する（Ｓ１４８）。

単語検出部１６ｂは、検出対象単語情報１５ｂに含まれる検出対象単語のうち、直前のＳ１４２において切り出された検出対象音声データに対して、未だ対象にしていない検出対象単語が存在するとＳ１４８において判断すると、Ｓ１４４の処理を実行する。

単語検出部１６ｂは、検出対象単語情報１５ｂに含まれる検出対象単語のうち、直前のＳ１４２において切り出された検出対象音声データに対して、未だ対象にしていない検出対象単語が存在しないとＳ１４８において判断すると、直前のＳ１４２において切り出された検出対象音声データの終了時点より後に、入力音声データが続いているか否かを判断する（Ｓ１４９）。

音声データ切り出し部１６ｃは、直前のＳ１４２において切り出された検出対象音声データの終了時点より後に、入力音声データが続いているとＳ１４９において判断されると、直前のＳ１４２において切り出された検出対象音声データの終了時点に対して最長単語時間だけ前の時点を切り出し開始時点として設定して（Ｓ１５０）、Ｓ１４２の処理を実行する。

単語検出部１６ｂは、直前のＳ１４２において切り出された検出対象音声データの終了時点より後に、入力音声データが続いていないとＳ１４９において判断すると、図１３に示す動作を終了する。

図１４（ａ）は、単語検出システム１０に入力される入力音声データの一例を示す図である。図１４（ｂ）は、図１４（ａ）に示す入力音声データのうち、１つ目の検出対象音声データの範囲２２を示す図である。図１４（ｃ）は、図１４（ａ）に示す入力音声データのうち、２つ目の検出対象音声データの範囲２３を示す図である。

図１４（ａ）に示す入力音声データは、「キャッシュカード」という単語２１を含んでいる。ここで、単語２１は、検出対象単語情報１５ｂに検出対象単語として含まれている。図１４（ｂ）に示すように、１つ目の検出対象音声データは、単語２１の全体が含まれないので、「キャッシュカード」という単語２１が検出されたとＳ１４６において判断されることはない。一方、図１４（ｃ）に示すように、２つ目の検出対象音声データは、単語２１の全体が含まれるので、「キャッシュカード」という単語２１が検出されたとＳ１４６において判断される。

なお、単語の検出のリアルタイム性の観点から、Ｓ１４３〜Ｓ１５０の処理は、可能な限り短時間で実行されることが好ましい。例えば、入力音声データから複数の検出対象音声データが切り出される場合、切り出しの順番が連続している２つの検出対象音声データにおいて、先に切り出される検出対象音声データの切り出し（Ｓ１４２）と、後に切り出される検出対象音声データの切り出し（Ｓ１４２）との間に実行される処理が、後に切り出される検出対象音声データの終了時点以前に終了していなければ、処理の遅延が発生する。したがって、入力音声データから複数の検出対象音声データが切り出される場合、切り出しの順番が連続している２つの検出対象音声データにおいて、先に切り出される検出対象音声データの切り出し（Ｓ１４２）と、後に切り出される検出対象音声データの切り出し（Ｓ１４２）との間に実行される処理は、後に切り出される検出対象音声データの終了時点以前に終了していることが好ましい。例えば、図１４（ｂ）に示す１つ目の検出対象音声データの切り出し後のＳ１４３〜Ｓ１５０の処理は、図１４（ｃ）に示す２つ目の検出対象音声データの終了時点以前に終了していること、すなわち、時間２Ｔから時間３Ｔまでの間に終了していることが好ましい。

以上に説明したように、単語検出システム１０は、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に単語検出学習モデルを生成し（Ｓ１０１〜Ｓ１０６およびＳ１２１〜Ｓ１２３）、この単語検出学習モデルを使用して入力音声データから検出対象単語を検出する（Ｓ１４６でＹＥＳ）ので、音声の背景にノイズが存在する入力音声データからの検出対象単語の検出の精度を向上することができる。

単語検出システム１０は、入力音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点を最長単語時間分ずつずらして、最長単語時間の２倍の時間分の検出対象音声データを入力音声データから切り出し（Ｓ１４２およびＳ１５０）、切り出した検出対象音声データから検出対象単語を検出することによって入力音声データから検出対象単語を検出する（Ｓ１４６でＹＥＳ）ので、入力音声データから切り出す検出対象音声データの数を抑えることによって入力音声データからの検出対象単語の検出の処理負担を抑えつつ、検出対象音声データの音声の長さを抑えることによって入力音声データからの検出対象単語の検出のリアルタイム性を向上することができる。

例えば、単語検出システム１０は、入力音声データとして電話機によって受信した音声データを扱うことによって、振り込め詐欺であると判断可能な検出対象単語を検出した場合に（Ｓ１４６でＹＥＳ）、振り込め詐欺に対する警告をリアルタイムに表示する（Ｓ１４７）ことができる。

なお、検出対象音声データは、最長単語時間より長い時間分の音声データであれば、最長単語時間の２倍の時間分の音声データでなくても良い。

また、単語検出システム１０は、入力音声データに検出対象単語が含まれる場合に、この検出対象単語が少なくとも１つの検出対象音声データに必ず含まれるように、入力音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点をずらすのであれば、入力音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点を最長単語時間分ずつずらすのではなくても良い。

単語検出システム１０は、入力音声データに検出対象単語が含まれる場合に、この検出対象単語が少なくとも１つの検出対象音声データに必ず含まれるように、入力音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点をずらして、最長単語時間より長い特定の時間分の検出対象音声データを入力音声データから切り出し、切り出した検出対象音声データから検出対象単語を検出することによって入力音声データから検出対象単語を検出する場合、入力音声データからの検出対象単語の検出のリアルタイム性を向上することができる。

単語検出システム１０は、本実施の形態において１台のコンピューターによって構成されるが、複数台のコンピューターによって構成されても良い。

１０単語検出システム
１５ａ単語検出プログラム
１５ｂ検出対象単語情報（検出対象単語を示す情報）
１５ｃ単語検出学習モデル（学習モデル）
１５ｅデータセット生成用音声データ（検出対象単語の音声の背景にノイズが存在する音声データ）
１６ａ学習モデル生成部
１６ｂ単語検出部
１６ｃ音声データ切り出し部
２１単語（検出対象単語）
２２、２３範囲（検出対象音声データの範囲）

Claims

検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成部と、
前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出部と
を備え、
前記学習モデル生成部は、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成することを特徴とする単語検出システム。
単語の検出対象の音声データとしての検出対象音声データを前記特定音声データから複数切り出す音声データ切り出し部を備え、
前記単語検出部は、前記音声データ切り出し部によって前記特定音声データから切り出された前記検出対象音声データから前記検出対象単語を検出することによって、前記特定音声データから前記検出対象単語を検出し、
前記検出対象音声データは、全ての前記検出対象単語のうち音声の長さが最も長い前記検出対象単語の音声の長さとしての最長単語時間より長い特定の時間分の音声データであり、
前記音声データ切り出し部は、前記特定音声データに前記検出対象単語が含まれる場合に、この検出対象単語が少なくとも１つの前記検出対象音声データに必ず含まれるように、前記特定音声データにおける時間において複数の前記検出対象音声データのそれぞれの切り出しの開始時点をずらすことを特徴とする請求項１に記載の単語検出システム。
前記特定の時間は、前記最長単語時間の２倍であり、
前記音声データ切り出し部は、前記特定音声データにおける時間において複数の前記検出対象音声データのそれぞれの切り出しの開始時点を前記最長単語時間分ずつずらすことを特徴とする請求項２に記載の単語検出システム。
検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成部と、
前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出部と
をコンピューターに実現させ、
前記学習モデル生成部は、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成することを特徴とする単語検出プログラム。
検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成ステップと、
前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出ステップと
を備え、
前記学習モデル生成ステップは、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成するステップであることを特徴とする単語検出方法。