JP2021021824A - 単語検出システム、単語検出プログラムおよび単語検出方法 - Google Patents

単語検出システム、単語検出プログラムおよび単語検出方法 Download PDF

Info

Publication number
JP2021021824A
JP2021021824A JP2019137996A JP2019137996A JP2021021824A JP 2021021824 A JP2021021824 A JP 2021021824A JP 2019137996 A JP2019137996 A JP 2019137996A JP 2019137996 A JP2019137996 A JP 2019137996A JP 2021021824 A JP2021021824 A JP 2021021824A
Authority
JP
Japan
Prior art keywords
word
voice data
detection target
detection
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019137996A
Other languages
English (en)
Inventor
原 博幸
Hiroyuki Hara
博幸 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2019137996A priority Critical patent/JP2021021824A/ja
Publication of JP2021021824A publication Critical patent/JP2021021824A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 音声の背景にノイズが存在する音声データからの単語の検出の精度を向上することができる単語検出システム、単語検出プログラムおよび単語検出方法を提供する。【解決手段】 単語検出システムは、検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルとしての単語検出学習モデルを生成する学習モデル生成部と、入力された音声データとしての入力音声データから単語検出学習モデルを使用して検出対象単語を検出する単語検出部とを備え、学習モデル生成部は、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に単語検出学習モデルを生成する(S121〜S123)ことを特徴とする。【選択図】 図11

Description

本発明は、音声データから単語を検出する単語検出システム、単語検出プログラムおよび単語検出方法に関する。
従来、音声データから単語を検出する技術が知られている(例えば、特許文献1−2参照。)。
特開平4−233599号公報 特開2000−259167号公報
しかしながら、従来の技術においては、音声データにおいて音声の背景にノイズが存在する場合に、音声データからの単語の検出の精度が低下するという問題がある。
そこで、本発明は、音声の背景にノイズが存在する音声データからの単語の検出の精度を向上することができる単語検出システム、単語検出プログラムおよび単語検出方法を提供することを目的とする。
本発明の単語検出システムは、検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成部と、前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出部とを備え、前記学習モデル生成部は、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成することを特徴とする。
この構成により、本発明の単語検出システムは、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に機械学習の学習モデルを生成し、この学習モデルを使用して特定音声データから検出対象単語を検出するので、音声の背景にノイズが存在する特定音声データからの単語の検出の精度を向上することができる。
本発明の単語検出システムは、単語の検出対象の音声データとしての検出対象音声データを前記特定音声データから複数切り出す音声データ切り出し部を備え、前記単語検出部は、前記音声データ切り出し部によって前記特定音声データから切り出された前記検出対象音声データから前記検出対象単語を検出することによって、前記特定音声データから前記検出対象単語を検出し、前記検出対象音声データは、全ての前記検出対象単語のうち音声の長さが最も長い前記検出対象単語の音声の長さとしての最長単語時間より長い特定の時間分の音声データであり、前記音声データ切り出し部は、前記特定音声データに前記検出対象単語が含まれる場合に、この検出対象単語が少なくとも1つの前記検出対象音声データに必ず含まれるように、前記特定音声データにおける時間において複数の前記検出対象音声データのそれぞれの切り出しの開始時点をずらしても良い。
この構成により、本発明の単語検出システムは、特定音声データに検出対象単語が含まれる場合に、この検出対象単語が少なくとも1つの検出対象音声データに必ず含まれるように、特定音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点をずらして、最長単語時間より長い特定の時間分の検出対象音声データを特定音声データから切り出し、切り出した検出対象音声データから検出対象単語を検出することによって特定音声データから検出対象単語を検出するので、特定音声データからの検出対象単語の検出のリアルタイム性を向上することができる。
本発明の単語検出システムにおいて、前記特定の時間は、前記最長単語時間の2倍であり、前記音声データ切り出し部は、前記特定音声データにおける時間において複数の前記検出対象音声データのそれぞれの切り出しの開始時点を前記最長単語時間分ずつずらしても良い。
この構成により、本発明の単語検出システムは、特定音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点を最長単語時間分ずつずらして、最長単語時間の2倍の時間分の検出対象音声データを特定音声データから切り出し、切り出した検出対象音声データから検出対象単語を検出することによって特定音声データから検出対象単語を検出するので、特定音声データから切り出す検出対象音声データの数を抑えることによって特定音声データからの検出対象単語の検出の処理負担を抑えつつ、検出対象音声データの音声の長さを抑えることによって特定音声データからの検出対象単語の検出のリアルタイム性を向上することができる。
本発明の単語検出プログラムは、検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成部と、前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出部とをコンピューターに実現させ、前記学習モデル生成部は、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成することを特徴とする。
この構成により、本発明の単語検出プログラムを実行するコンピューターは、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に機械学習の学習モデルを生成し、この学習モデルを使用して特定音声データから検出対象単語を検出するので、音声の背景にノイズが存在する特定音声データからの検出対象単語の検出の精度を向上することができる。
本発明の単語検出方法は、検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成ステップと、前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出ステップとを備え、前記学習モデル生成ステップは、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成するステップであることを特徴とする。
この構成により、本発明の単語検出方法は、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に機械学習の学習モデルを生成し、この学習モデルを使用して特定音声データから検出対象単語を検出するので、音声の背景にノイズが存在する特定音声データからの検出対象単語の検出の精度を向上することができる。
本発明の単語検出システム、単語検出プログラムおよび単語検出方法は、音声の背景にノイズが存在する音声データからの単語の検出の精度を向上することができる。
1台のコンピューターによって構成される場合の本発明の一実施の形態に係る単語検出システムのブロック図である。 図1に示す検出対象単語情報の一例を示す図である。 図1に示す単語検出学習モデルの構成の一例を示す図である。 図3に示す単語検出学習モデルの内容を示す図である。 図1に示すデータセットの入力データの一例を示す図である。 図1に示すデータセットの正解データの一例を示す図である。 図1に示すデータセット生成用音声データの一例を示す図である。 図7に示すデータセット生成用音声データのスペクトログラムを示す図である。 データセットを生成する場合の図1に示す単語検出システムの動作のフローチャートである。 図6に示す正解データと、図8に示すスペクトログラムとの関係を示す図である。 単語検出学習モデルを生成する場合の図1に示す単語検出システムの動作のフローチャートである。 図11に示す動作によって生成された単語検出学習モデルに図5に示す入力データを入力した場合の出力結果の一例を示す図である。 入力音声データから単語を検出する場合の図1に示す単語検出システムの動作のフローチャートである。 (a)図1に示す単語検出システムに入力される入力音声データの一例を示す図である。 (b)図14(a)に示す入力音声データのうち、1つ目の検出対象音声データの範囲を示す図である。 (c)図14(a)に示す入力音声データのうち、2つ目の検出対象音声データの範囲を示す図である。
以下、本発明の実施の形態について、図面を用いて説明する。
まず、本発明の一実施の形態に係る単語検出システムの構成について説明する。
図1は、1台のコンピューターによって構成される場合の本実施の形態に係る単語検出システム10のブロック図である。
図1に示すように、単語検出システム10は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部11と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部12と、スピーカー13と、LAN(Local Area Network)、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部14と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部15と、単語検出システム10全体を制御する制御部16とを備えている。
記憶部15は、通信部14から入力された音声データとしての入力音声データから単語を検出するための単語検出プログラム15aを記憶している。単語検出プログラム15aは、例えば、単語検出システム10の製造段階で単語検出システム10にインストールされていても良いし、CD(Compact Disk)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体から単語検出システム10に追加でインストールされても良いし、ネットワーク上から単語検出システム10に追加でインストールされても良い。
記憶部15は、検出対象の単語としての検出対象単語を示す検出対象単語情報15bを記憶することができる。
図2は、検出対象単語情報15bの一例を示す図である。
図2に示す検出対象単語情報15bは、検出対象単語と、検出対象単語の音声データとの組み合わせを、検出対象単語毎に示している。図2において、音声データは、音声波形で示されている。
図1に示す制御部16は、操作部11または通信部14を介して入力された指示に応じて検出対象単語を検出対象単語情報15bに追加したり、操作部11または通信部14を介して入力された指示に応じて検出対象単語を検出対象単語情報15bから削除したりすることができる。同様に、制御部16は、通信部14を介して入力された、検出対象単語の音声データを検出対象単語情報15bに追加したり、操作部11または通信部14を介して入力された指示に応じて検出対象単語の音声データを検出対象単語情報15bから削除したりすることができる。
記憶部15は、音声データから検出対象単語を検出する機械学習の学習モデルである単語検出学習モデル15cを記憶することができる。記憶部15は、単語検出学習モデル15cと同様の単語検出学習モデルを、単語検出学習モデル15c以外にも少なくとも1つ記憶することができる。記憶部15は、検出対象単語情報15bに示される検出対象単語毎に単語検出学習モデルを記憶することができる。例えば、単語検出学習モデル15cの検出対象単語は、「activate」という単語でも良い。
図3は、単語検出学習モデル15cの構成の一例を示す図である。図4は、図3に示す単語検出学習モデル15cの内容を示す図である。
図3および図4に示す単語検出学習モデル15cは、5511個のスペクトログラムが入力であり、1375個の出力である。単語検出学習モデル15cは、ディープラーニングのRNN(RECURRENT Neural Network(再帰型ニューラルネットワーク))である。
図1に示すように、記憶部15は、単語検出学習モデル15cの学習用のデータセット15dを記憶することができる。データセット15dは、5511個のスペクトログラムの入力データと、1375個の正解データとを含んでいる。記憶部15は、単語検出学習モデル15cの学習用のデータセットを、データセット15d以外にも少なくとも1つ記憶することができる。同様に、記憶部15は、単語検出学習モデル15c以外の単語検出学習モデルの学習用のデータセットを、単語検出学習モデル毎に少なくとも1つずつ記憶することができる。
図5は、データセット15dの入力データの一例を示す図である。
図5に示す入力データは、10秒間を5511個に分割したスペクトログラムを示すデータである。図5においては、理解を容易にするために、周波数は、17段階で示されているが、実際には、入力データにおいて、周波数は、101段階に分割されている。図5において、濃度が濃い領域ほど、頻度が高いことを示す。
図6は、データセット15dの正解データの一例を示す図である。
図6に示す正解データは、10秒間を1375個に分割した期間毎に、データセット15dの検出対象単語に関係する期間である場合には1を示し、データセット15dの検出対象単語に関係しない期間である場合には0を示している。
図1に示すように、記憶部15は、データセット15dを生成するための音声データ(以下「データセット生成用音声データ」という。)15eを記憶することができる。記憶部15は、データセット生成用音声データ15e以外にも、データセットを生成するためのデータセット生成用音声データを、データセット毎に少なくとも1つずつ記憶することができる。データセット生成用音声データは、検出対象単語の音声の背景に様々なノイズが存在する音声データである。
図7は、データセット生成用音声データ15eの一例を示す図である。図8は、図7に示すデータセット生成用音声データ15eのスペクトログラムを示す図である。
図7において、データセット生成用音声データ15eは、音声波形で示されている。図7および図8に示すデータセット生成用音声データ15eは、例えば、44100Hzでサンプリングされた10秒間の音声データである。図8に示すデータセット生成用音声データ15eは、検出対象単語としての「activate」の音声と、「innocent」の音声と、検出対象単語としての「activate」の音声と、「baby」の音声とを順番に含む音声データである。
図1に示す制御部16は、通信部14を介して入力されたデータセット生成用音声データを記憶部15に追加したり、操作部11または通信部14を介して入力された指示に応じてデータセット生成用音声データを記憶部15から削除したりすることができる。
制御部16は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部16のCPUの作業領域として用いられるメモリーとしてのRAM(Random Access Memory)とを備えている。制御部16のCPUは、記憶部15または制御部16のROMに記憶されているプログラムを実行する。
制御部16は、単語検出プログラム15aを実行することによって、単語検出学習モデルを生成する学習モデル生成部16aと、単語検出学習モデルを使用して、入力音声データから検出対象単語を検出する単語検出部16bと、単語の検出対象の音声データ(以下「検出対象音声データ」という。)を入力音声データから切り出す音声データ切り出し部16cとを実現する。
次に、単語検出システム10の動作について説明する。
まず、データセットを生成する場合の単語検出システム10の動作について説明する。
なお、以下においては、記憶部15に記憶されるデータセットを代表して、データセット15dについて説明する。
図9は、データセットを生成する場合の単語検出システム10の動作のフローチャートである。
図9に示すように、学習モデル生成部16aは、10秒間を5511個に分割して周波数を101段階に分割したデータセット生成用音声データ15eのスペクトログラムである入力データを生成する(S101)。例えば、学習モデル生成部16aは、図5に示す入力データを生成する。
次いで、学習モデル生成部16aは、データセット生成用音声データ15eに応じた音声をスピーカー13によって出力することを開始する(S102)とともに、データセット生成用音声データ15eに応じた音声の出力の期間のうち、検出対象単語に関係する期間の指定を操作部11を介して受け付けることを開始する(S103)。例えば、学習モデル生成部16aは、データセット生成用音声データ15eに応じた音声をスピーカー13によって出力している場合に、データセット生成用音声データ15eの検出対象単語が出現したタイミングで作業者に操作部11を介して特定の操作を入力させることによって、検出対象単語に関係する期間であることを作業者に指定させる。
学習モデル生成部16aは、S103の処理の後、データセット生成用音声データ15eに応じた音声の出力が終了したと判断するまで、データセット生成用音声データ15eに応じた音声の出力が終了したか否かを判断する(S104)。
学習モデル生成部16aは、データセット生成用音声データ15eに応じた音声の出力が終了したとS104において判断すると、S103において受け付けを開始した指定に応じてデータセット15dの正解データを生成する(S105)。例えば、学習モデル生成部16aは、図8に示すデータセット生成用音声データ15eに対して、図10に示すように、10秒間を1375個に分割した期間のうち、検出対象単語に関係すると指示された期間については1を示し、検出対象単語に関係しないと指示された期間については0を示すことによって、図6に示す正解データを生成する。なお、図8に示すデータセット生成用音声データ15eにおいて、検出対象単語は、上述したように「activate」という単語である。
学習モデル生成部16aは、S105の処理の後、S101において生成した入力データと、S105において生成した正解データとを含むデータセット15dを生成して(S106)、図9に示す動作を終了する。
次に、単語検出学習モデルを生成する場合の単語検出システム10の動作について説明する。
図11は、単語検出学習モデルを生成する場合の単語検出システム10の動作のフローチャートである。
なお、以下においては、記憶部15に記憶される単語検出学習モデルを代表して、単語検出学習モデル15cについて説明する。
図11に示すように、学習モデル生成部16aは、記憶部15に記憶されている、単語検出学習モデル15cの学習用のデータセットのうち、未だ今回の図11に示す動作の対象にしていないデータセットの1つのみを対象にする(S121)。
次いで、学習モデル生成部16aは、現在の対象のデータセットを使用して、単語検出学習モデル15cの学習を実行する(S122)。
次いで、学習モデル生成部16aは、記憶部15に記憶されている、単語検出学習モデル15cの学習用のデータセットのうち、未だ今回の図11に示す動作の対象にしていないデータセットが存在するか否かを判断する(S123)。
学習モデル生成部16aは、記憶部15に記憶されている、単語検出学習モデル15cの学習用のデータセットのうち、未だ今回の図11に示す動作の対象にしていないデータセットが存在するとS123において判断すると、S121の処理を実行する。
学習モデル生成部16aは、記憶部15に記憶されている、単語検出学習モデル15cの学習用のデータセットのうち、未だ今回の図11に示す動作の対象にしていないデータセットが存在しないとS123において判断すると、図11に示す動作を終了する。
図12は、図11に示す動作によって生成された単語検出学習モデル15cに図5に示す入力データを入力した場合の出力結果の一例を示す図である。
図12に示すように、図8に示すデータセット生成用音声データ15eのスペクトログラムにおいて「activate」という検出対象単語が出現する期間の直後の期間において出力値が大きくなっている。したがって、検出対象単語の出現を判定するための下限の閾値(以下「単語判定閾値」という。)として、例えば0.5など、適切な値が図12に示す出力結果に対して適用されることによって、データセット生成用音声データ15eから検出対象単語が適切に検出されることになる。
次に、入力音声データから単語を検出する場合の単語検出システム10の動作について説明する。
図13は、入力音声データから単語を検出する場合の単語検出システム10の動作のフローチャートである。
音声データ切り出し部16cは、通信部14から音声データが入力されると、図13に示す動作を開始する。
図13に示すように、音声データ切り出し部16cは、入力音声データにおける時間において検出対象音声データの切り出しを開始する時点(以下「切り出し開始時点」)として、入力音声データにおける最初の時点を設定する(S141)。
次いで、音声データ切り出し部16cは、現在設定されている切り出し開始時点から、検出対象単語情報15bに含まれる全ての検出対象単語のうち、音声の長さが最も長い検出対象単語の音声の長さ(以下「最長単語時間」という。)の2倍の長さの時間分の検出対象音声データを入力音声データから切り出す(S142)。
単語検出部16bは、S142の処理の後、直前のS142において切り出された検出対象音声データから10秒間を5511個に分割して周波数を101段階に分割したスペクトログラムである入力データを生成する(S143)。
次いで、単語検出部16bは、検出対象単語情報15bに含まれる検出対象単語のうち、直前のS142において切り出された検出対象音声データに対して、未だ対象にしていない検出対象単語の1つのみを対象にする(S144)。
次いで、単語検出部16bは、記憶部15に記憶されている単語検出学習モデルのうち、現在の対象の検出対象単語の単語検出学習モデルに、S143において生成した入力データを入力することによって、出力結果を得る(S145)。
次いで、単語検出部16bは、S145において得た出力結果に対して、現在の対象の検出対象単語に対して設定されている単語判定閾値を適用することによって、直前のS142において切り出された検出対象音声データから現在の対象の検出対象単語が検出されたか否かを判断する(S146)。
単語検出部16bは、直前のS142において切り出された検出対象音声データから現在の対象の検出対象単語が検出されたとS146において判断すると、入力音声データから現在の対象の検出対象単語が検出された場合の特定の動作を実行する(S147)。ここで、特定の動作とは、例えば、表示部12に特定の警告を表示する動作である。
単語検出部16bは、直前のS142において切り出された検出対象音声データから現在の対象の検出対象単語が検出されなかったとS146において判断するか、S147の処理が終了すると、検出対象単語情報15bに含まれる検出対象単語のうち、直前のS142において切り出された検出対象音声データに対して、未だ対象にしていない検出対象単語が存在するか否かを判断する(S148)。
単語検出部16bは、検出対象単語情報15bに含まれる検出対象単語のうち、直前のS142において切り出された検出対象音声データに対して、未だ対象にしていない検出対象単語が存在するとS148において判断すると、S144の処理を実行する。
単語検出部16bは、検出対象単語情報15bに含まれる検出対象単語のうち、直前のS142において切り出された検出対象音声データに対して、未だ対象にしていない検出対象単語が存在しないとS148において判断すると、直前のS142において切り出された検出対象音声データの終了時点より後に、入力音声データが続いているか否かを判断する(S149)。
音声データ切り出し部16cは、直前のS142において切り出された検出対象音声データの終了時点より後に、入力音声データが続いているとS149において判断されると、直前のS142において切り出された検出対象音声データの終了時点に対して最長単語時間だけ前の時点を切り出し開始時点として設定して(S150)、S142の処理を実行する。
単語検出部16bは、直前のS142において切り出された検出対象音声データの終了時点より後に、入力音声データが続いていないとS149において判断すると、図13に示す動作を終了する。
図14(a)は、単語検出システム10に入力される入力音声データの一例を示す図である。図14(b)は、図14(a)に示す入力音声データのうち、1つ目の検出対象音声データの範囲22を示す図である。図14(c)は、図14(a)に示す入力音声データのうち、2つ目の検出対象音声データの範囲23を示す図である。
図14(a)に示す入力音声データは、「キャッシュカード」という単語21を含んでいる。ここで、単語21は、検出対象単語情報15bに検出対象単語として含まれている。図14(b)に示すように、1つ目の検出対象音声データは、単語21の全体が含まれないので、「キャッシュカード」という単語21が検出されたとS146において判断されることはない。一方、図14(c)に示すように、2つ目の検出対象音声データは、単語21の全体が含まれるので、「キャッシュカード」という単語21が検出されたとS146において判断される。
なお、単語の検出のリアルタイム性の観点から、S143〜S150の処理は、可能な限り短時間で実行されることが好ましい。例えば、入力音声データから複数の検出対象音声データが切り出される場合、切り出しの順番が連続している2つの検出対象音声データにおいて、先に切り出される検出対象音声データの切り出し(S142)と、後に切り出される検出対象音声データの切り出し(S142)との間に実行される処理が、後に切り出される検出対象音声データの終了時点以前に終了していなければ、処理の遅延が発生する。したがって、入力音声データから複数の検出対象音声データが切り出される場合、切り出しの順番が連続している2つの検出対象音声データにおいて、先に切り出される検出対象音声データの切り出し(S142)と、後に切り出される検出対象音声データの切り出し(S142)との間に実行される処理は、後に切り出される検出対象音声データの終了時点以前に終了していることが好ましい。例えば、図14(b)に示す1つ目の検出対象音声データの切り出し後のS143〜S150の処理は、図14(c)に示す2つ目の検出対象音声データの終了時点以前に終了していること、すなわち、時間2Tから時間3Tまでの間に終了していることが好ましい。
以上に説明したように、単語検出システム10は、検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから検出対象単語を検出可能に単語検出学習モデルを生成し(S101〜S106およびS121〜S123)、この単語検出学習モデルを使用して入力音声データから検出対象単語を検出する(S146でYES)ので、音声の背景にノイズが存在する入力音声データからの検出対象単語の検出の精度を向上することができる。
単語検出システム10は、入力音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点を最長単語時間分ずつずらして、最長単語時間の2倍の時間分の検出対象音声データを入力音声データから切り出し(S142およびS150)、切り出した検出対象音声データから検出対象単語を検出することによって入力音声データから検出対象単語を検出する(S146でYES)ので、入力音声データから切り出す検出対象音声データの数を抑えることによって入力音声データからの検出対象単語の検出の処理負担を抑えつつ、検出対象音声データの音声の長さを抑えることによって入力音声データからの検出対象単語の検出のリアルタイム性を向上することができる。
例えば、単語検出システム10は、入力音声データとして電話機によって受信した音声データを扱うことによって、振り込め詐欺であると判断可能な検出対象単語を検出した場合に(S146でYES)、振り込め詐欺に対する警告をリアルタイムに表示する(S147)ことができる。
なお、検出対象音声データは、最長単語時間より長い時間分の音声データであれば、最長単語時間の2倍の時間分の音声データでなくても良い。
また、単語検出システム10は、入力音声データに検出対象単語が含まれる場合に、この検出対象単語が少なくとも1つの検出対象音声データに必ず含まれるように、入力音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点をずらすのであれば、入力音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点を最長単語時間分ずつずらすのではなくても良い。
単語検出システム10は、入力音声データに検出対象単語が含まれる場合に、この検出対象単語が少なくとも1つの検出対象音声データに必ず含まれるように、入力音声データにおける時間において複数の検出対象音声データのそれぞれの切り出しの開始時点をずらして、最長単語時間より長い特定の時間分の検出対象音声データを入力音声データから切り出し、切り出した検出対象音声データから検出対象単語を検出することによって入力音声データから検出対象単語を検出する場合、入力音声データからの検出対象単語の検出のリアルタイム性を向上することができる。
単語検出システム10は、本実施の形態において1台のコンピューターによって構成されるが、複数台のコンピューターによって構成されても良い。
10 単語検出システム
15a 単語検出プログラム
15b 検出対象単語情報(検出対象単語を示す情報)
15c 単語検出学習モデル(学習モデル)
15e データセット生成用音声データ(検出対象単語の音声の背景にノイズが存在する音声データ)
16a 学習モデル生成部
16b 単語検出部
16c 音声データ切り出し部
21 単語(検出対象単語)
22、23 範囲(検出対象音声データの範囲)

Claims (5)

  1. 検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成部と、
    前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出部と
    を備え、
    前記学習モデル生成部は、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成することを特徴とする単語検出システム。
  2. 単語の検出対象の音声データとしての検出対象音声データを前記特定音声データから複数切り出す音声データ切り出し部を備え、
    前記単語検出部は、前記音声データ切り出し部によって前記特定音声データから切り出された前記検出対象音声データから前記検出対象単語を検出することによって、前記特定音声データから前記検出対象単語を検出し、
    前記検出対象音声データは、全ての前記検出対象単語のうち音声の長さが最も長い前記検出対象単語の音声の長さとしての最長単語時間より長い特定の時間分の音声データであり、
    前記音声データ切り出し部は、前記特定音声データに前記検出対象単語が含まれる場合に、この検出対象単語が少なくとも1つの前記検出対象音声データに必ず含まれるように、前記特定音声データにおける時間において複数の前記検出対象音声データのそれぞれの切り出しの開始時点をずらすことを特徴とする請求項1に記載の単語検出システム。
  3. 前記特定の時間は、前記最長単語時間の2倍であり、
    前記音声データ切り出し部は、前記特定音声データにおける時間において複数の前記検出対象音声データのそれぞれの切り出しの開始時点を前記最長単語時間分ずつずらすことを特徴とする請求項2に記載の単語検出システム。
  4. 検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成部と、
    前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出部と
    をコンピューターに実現させ、
    前記学習モデル生成部は、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成することを特徴とする単語検出プログラム。
  5. 検出対象の単語としての検出対象単語を音声データから検出する機械学習の学習モデルを生成する学習モデル生成ステップと、
    前記学習モデルを使用して、特定の音声データとしての特定音声データから前記検出対象単語を検出する単語検出ステップと
    を備え、
    前記学習モデル生成ステップは、前記検出対象単語の音声の背景にノイズが存在する音声データを使用して、この音声データから前記検出対象単語を検出可能に前記学習モデルを生成するステップであることを特徴とする単語検出方法。
JP2019137996A 2019-07-26 2019-07-26 単語検出システム、単語検出プログラムおよび単語検出方法 Pending JP2021021824A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019137996A JP2021021824A (ja) 2019-07-26 2019-07-26 単語検出システム、単語検出プログラムおよび単語検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019137996A JP2021021824A (ja) 2019-07-26 2019-07-26 単語検出システム、単語検出プログラムおよび単語検出方法

Publications (1)

Publication Number Publication Date
JP2021021824A true JP2021021824A (ja) 2021-02-18

Family

ID=74574195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019137996A Pending JP2021021824A (ja) 2019-07-26 2019-07-26 単語検出システム、単語検出プログラムおよび単語検出方法

Country Status (1)

Country Link
JP (1) JP2021021824A (ja)

Similar Documents

Publication Publication Date Title
US11456017B2 (en) Looping audio-visual file generation based on audio and video analysis
US9171532B2 (en) Sound signal analysis apparatus, sound signal analysis method and sound signal analysis program
KR101143034B1 (ko) 음성 명령을 명확하게 해주는 중앙집중식 방법 및 시스템
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
EP2779156B1 (en) Sound signal analysis apparatus, sound signal analysis method and sound signal analysis program
JP2008083375A (ja) 音声区間検出装置およびプログラム
KR20150037986A (ko) 핫워드 적합성을 결정하는 방법 및 장치
CN102473415B (zh) 声音控制装置及声音控制方法
JP6306528B2 (ja) 音響モデル学習支援装置、音響モデル学習支援方法
US11074897B2 (en) Method and apparatus for training adaptation quality evaluation model, and method and apparatus for evaluating adaptation quality
JP6248415B2 (ja) 楽曲評価装置
CN110688518A (zh) 节奏点的确定方法、装置、设备及存储介质
JP6151121B2 (ja) コード進行推定検出装置及びコード進行推定検出プログラム
JP2021021824A (ja) 単語検出システム、単語検出プログラムおよび単語検出方法
CN112712783A (zh) 生成音乐的方法和装置、计算机设备和介质
JP7194559B2 (ja) プログラム、情報処理方法、及び情報処理装置
JP2020042229A (ja) 議事録生成システムおよび議事録生成プログラム
KR20200136274A (ko) 퍼즐 방식의 작곡 지원 방법 및 이를 사용한 컴퓨팅 장치
JP6149917B2 (ja) 音声合成装置および音声合成方法
JP7501610B2 (ja) 音声認識装置、制御方法、及びプログラム
JP7515220B1 (ja) 音声処理装置、音声処理方法、およびプログラム
JP7177383B2 (ja) 音声処理システムおよび音声処理プログラム
EP4089671A1 (en) Audio information processing method and apparatus, electronic device, and storage medium
JP4973431B2 (ja) 音声再生プログラム及び音声再生装置
JP2009295122A (ja) 構造化文書処理システム、構造化文書処理方法および構造化文書処理プログラム