JP2024038566A

JP2024038566A - キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム

Info

Publication number: JP2024038566A
Application number: JP2022142662A
Authority: JP
Inventors: 優佳小林; Yuka Kobayashi; 尚水吉田; Takami Yoshida; 憲治岩田; Kenji Iwata; 務嗣久島; Tsuyoshi Kushima; 尚義永江; Hisayoshi Nagae; 奈夕子渡辺; Nayuko Watanabe
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2024-03-21
Also published as: US20240086636A1; CN117669553A

Abstract

【課題】入力情報の認識結果に誤りが含まれる場合であっても、正しいキーワードを出力する。【解決手段】キーワード検出装置１０は、フレーズ検出部２０Ｂと、類似度算出部２０Ｃと、キーワード出力部２０Ｄと、を備える。フレーズ検出部２０Ｂは、所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出する。類似度算出部２０Ｃは、複数のキーワードごとに、キーワードのキーワード表記と、キーワードを入力形態で表したキーワード形態情報と、を対応付けたキーワードリスト３２に含まれる複数のキーワードの各々とフレーズとの類似度に応じた出力類似度を算出する。キーワード出力部２０Ｄは、出力類似度に応じて、キーワードリスト３２におけるキーワードを出力する。【選択図】図１

Description

本発明の実施形態は、キーワード検出装置、キーワード検出方法、およびキーワード検出プログラムに関する。

ユーザの発話等によって入力された入力情報を認識し、入力情報の認識結果から抽出されたキーワードに基づいた処理を実行するシステムが知られている。このようなシステムでは、認識結果に誤りが含まれる場合、キーワードを正しく検出できないという問題点がある。特にキーワードには専門用語や固有名詞等の一般的ではない用語が用いられる場合が多く、誤認識が発生しやすい。

そこで、誤認識を抑制する技術が開示されている。例えば、正解キーワードおよび誤認識キーワードの各々を音素に変換し、音素列同士の類似度を比較し、類似度が高ければ正解キーワードとみなす技術が提案されている。しかしながら、このような従来技術では、キーワード単体で発話されることを前提としており、キーワードを含む自然文等の入力情報が入力された場合、入力情報に含まれるキーワードの箇所を特定することが困難であった。また、正解キーワードの音素列を音声認識結果の音素列中で検索し、キーワード箇所を特定する技術が開示されている。しかしながら、この技術では、音素に誤りがある場合キーワードの箇所を特定することが困難であった。すなわち、従来技術では、認識結果に誤りが含まれる場合、正しいキーワードを出力することは困難であった。

特開２０１１－１２８９０３号公報特許第５５２２６７９号公報

本発明が解決しようとする課題は、入力情報の認識結果に誤りが含まれる場合であっても、正しいキーワードを出力することができる、キーワード検出装置、キーワード検出方法、およびキーワード検出プログラムを提供することである。

実施形態のキーワード検出装置は、フレーズ検出部と、類似度算出部と、キーワード出力部と、を備える。フレーズ検出部は、所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出する。類似度算出部は、複数の前記キーワードごとに、前記キーワードのキーワード表記と、前記キーワードを前記入力形態で表したキーワード形態情報と、を対応付けたキーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度に応じた出力類似度を算出する。キーワード出力部は、前記出力類似度に応じて、前記キーワードリストにおける前記キーワードを出力する。

キーワード検出装置の機能ブロック図。キーワードリストのデータ構成を示す模式図。キーワードリストのデータ構成を示す模式図。キーワード検出装置で実行する情報処理の流れを示すフローチャート。キーワード検出装置の機能ブロック図。キーワード検出装置で実行する情報処理の流れを示すフローチャート。キーワード検出装置の機能ブロック図。キーワード検出装置で実行する情報処理の流れを示すフローチャート。キーワード検出装置の機能ブロック図。キーワード検出装置で実行する情報処理の流れを示すフローチャート。キーワード検出装置の一例の機能ブロック図。キーワードリストのデータ構成を示す模式図。キーワードリストのデータ構成を示す模式図。キーワード検出装置で実行する情報処理の流れを示すフローチャート。キーワード検出装置の機能ブロック図。表示画面の説明図。表示画面の説明図。キーワード検出装置で実行する情報処理の流れを示すフローチャート。ハードウェア構成例を示すブロック図。

以下に添付図面を参照して、キーワード検出装置、キーワード検出方法、およびキーワード検出プログラムを詳細に説明する。

（第１実施形態）
図１は、本実施形態のキーワード検出装置１０の一例の機能ブロック図である。

キーワード検出装置１０は、入力情報の認識結果であるテキスト情報から認識結果に含まれる正しいキーワードを出力するための情報処理装置である。

入力情報とは、キーワード検出装置１０に入力される情報である。入力情報は、所定の入力形態で表される。所定の入力形態とは、入力情報の入力形態である。入力形態は、例えば、マイク等によって集音される音声、キーボード等の入力デバイスによって入力されるキー入力、手書きボード等を介して入力される手書き文字入力、等である。入力形態が音声である場合、入力情報は音声データである。入力形態がキー入力である場合、入力情報はキー入力信号である。入力形態が手書き文字入力である場合、入力情報は手書き文字入力によって表されるストローク信号等である。

本実施形態では、入力形態が音声であり、入力情報が音声データである形態を一例として説明する。また、本実施形態では、音声が、ユーザによって発話された音声である場合を想定して説明する。なお、音声は、ユーザによる発話に限定されない。

キーワード検出装置１０は、制御部２０と、記憶部３０と、備える。制御部２０と記憶部３０とはデータおよび信号を授受可能に接続されている。

記憶部３０は、各種の情報を記憶する。本実施形態では、記憶部３０は、キーワードリスト３２を予め記憶する。

キーワードリスト３２とは、複数のキーワードごとに、キーワードのキーワード表記と、キーワードを入力形態で表したキーワード形態情報と、を対応付けたリストである。

キーワード表記とは、キーワードを表す文字である。キーワード形態情報とは、キーワードを入力情報の入力形態で表した情報である。

入力情報の入力形態が音声である場合、キーワード表記はキーワードを表す文字であり、キーワード形態情報はキーワードの読みを表す情報である。読みは、キーワードの発音を表す。

上述したように、本実施形態では、入力情報の入力形態が音声である形態を一例として説明する。このため、本実施形態では、キーワードリスト３２には、キーワードごとに、キーワードのキーワード表記と、キーワード形態情報である読みと、が対応付けて予め登録されている。以下では、キーワード表記を、単に、表記、と称して説明する場合がある。

図２Ａは、キーワードリスト３２Ａのデータ構成の一例を示す模式図である。キーワードリスト３２Ａは、入力情報である音声が日本語の音声である場合のキーワードリスト３２の一例である。キーワードリスト３２Ａには、３つのキーワードの各々について、表記と読みとが対応付けて登録されている例を示す。なお、キーワードリスト３２Ａには、２つまたは４つ以上の複数のキーワードが登録されているが、簡略化のために、図２Ａにはその一部を示す。

図２Ｂは、キーワードリスト３２Ｂのデータ構成の一例を示す模式図である。キーワードリスト３２Ｂは、入力情報である音声が英語の音声である場合のキーワードリスト３２の一例である。キーワードリスト３２Ｂには、３つのキーワードの各々について、表記と読みとが対応付けて登録されている例を示す。なお、キーワードリスト３２Ｂには、２つまたは４つ以上の複数のキーワードが登録されているが、簡略化のために、図２Ｂにはその一部を示す。

図１に戻り説明を続ける。制御部２０は、キーワード検出装置１０において情報処理を実行する。制御部２０は、音声認識部２０Ａと、フレーズ検出部２０Ｂと、類似度算出部２０Ｃと、キーワード出力部２０Ｄと、を備える。

音声認識部２０Ａ、フレーズ検出部２０Ｂ、類似度算出部２０Ｃ、およびキーワード出力部２０Ｄは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

なお、記憶部３０に記憶されている情報および制御部２０に含まれる上記各部の少なくとも一部を、キーワード検出装置１０に対して通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。

音声認識部２０Ａは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する。音声認識部２０Ａは、公知の方法により音声データを認識し、認識結果であるテキスト情報を出力すればよい。なお、テキスト情報は、読みおよび表記の何れで表されていてもよく、読みと表記とが混在していてもよい。

フレーズ検出部２０Ｂは、所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出する。

フレーズとは、テキスト情報に含まれるキーワードになりえる部分を表す。言い換えると、フレーズとは、テキスト情報に含まれる、キーワードである可能性の高い部分を表す。フレーズは、読みおよび表記の何れで表されていてもよく、読みと表記とが混在していてもよい。

本実施形態では、フレーズ検出部２０Ｂは、音声データの認識結果であるテキスト情報から、１または複数のフレーズを検出する。

ここで、認識結果であるテキスト情報には誤認識が含まれている可能性がある。このため、キーワードそのものを用いてテキスト情報を検索しても、テキスト情報からキーワードを検出することが不可能な場合がある。

そこで、フレーズ検出部２０Ｂは、テキスト情報に含まれるキーワード以外の部分の情報である文脈を用いて、フレーズを検出する。

例えば、フレーズ検出部２０Ｂは、キーワード検出装置１０で出力する対象のキーワードが使われる文脈のテンプレートのリストを、予め記憶部３０に記憶する。テンプレートは、例えば、「この辺りで＿＿＿が食べられる店」などである。該テンプレートにおける“＿＿＿”以外の部分が文脈に相当し、“＿＿＿”の部分がフレーズの部分である。フレーズ検出部２０Ｂは、テキスト情報中にテンプレートのリストに含まれる何れかのテンプレートに一致する文脈が存在するか否かを判断する。そして、フレーズ検出部２０Ｂは、テンプレートに一致する文脈が存在する場合、該テキスト情報における該文脈の“＿＿＿”に相当する部分を、フレーズとして検出する。

また、例えば、フレーズ検出部２０Ｂは、キーワード検出装置１０で出力する対象のキーワードを含む文章と、該文章におけるキーワードの箇所を表すラベルと、の対からなる学習データを予め大量に用意する。そして、フレーズ検出部２０Ｂは、複数の上記学習データを用いて、該文章を入力とし該ラベルを出力とする機械学習モデルを予め生成する。そして、フレーズ検出部２０Ｂは、認識結果であるテキスト情報を上記機械学習モデルへ入力し、該機械学習モデルからの出力を得ることで、出力されたラベルをフレーズとして検出する。

次に、類似度算出部２０Ｃについて説明する。

類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々と、フレーズ検出部２０Ｂで検出されたフレーズと、の類似度に応じた出力類似度を算出する。

例えば、類似度算出部２０Ｃは、フレーズ検出部２０Ｂで検出されたフレーズと、キーワードリスト３２に含まれる複数のキーワードの各々の読みと、の類似度を出力類似度として算出する。

日本語の場合を例に挙げて説明する。例えば、音声認識部２０Ａに入力された音声の入力情報が「貯湯ユニット給湯温度の設定方法を見せて」であった場合を想定する。そして、音声認識部２０Ａによる音声データの認識結果であるテキスト情報が「ちょっとユニットキュート温度の設定方法見せて」であった場合を想定する。そして、フレーズ検出部２０Ｂが該テキスト情報から、フレーズ「ちょっとユニットキュート温度」を検出した場合を想定する。

これらの想定の元に、３種類の類似度算出方法を一例として説明する。

まず、類似度算出部２０Ｃによる１種類目の類似度算出方法について説明する。

１種類目の類似度算出方法では、類似度算出部２０Ｃは、フレーズを読みに変換し、キーワードリスト３２におけるキーワードの読みとの編集距離を類似度として算出する。

具体的には、類似度算出部２０Ｃは、フレーズ「ちょっとユニットキュート温度」を、該フレーズの読み「ちょっとゆにっときゅーとおんど」に変換する。そして、類似度算出部２０Ｃは、フレーズの読み「ちょっとゆにっときゅーとおんど」と、キーワードリスト３２Ａに登録されている複数のキーワードの読みの各々と、の編集距離を類似度として算出する。類似度算出部２０Ｃは、例えば、以下式（１）によって類似度を算出する。そして、類似度算出部２０Ｃは、算出した類似度を出力類似度として用いる。

類似度＝｛（キーワードの読みを構成する文字数）－（ペナルティ）｝／キーワードの読みを構成する文字数）・・・式（１）

式（１）中、ペナルティとは、キーワードとフレーズとの異なる文字数を表す。

例えば、フレーズの読み「ちょっとゆにっときゅーとおんど」は１５文字からなる。そして、フレーズの読み「ちょっとゆにっときゅーとおんど」と、キーワードリスト３２Ａにおけるあるキーワードの読み「ちょとうゆにっときゅうとうおんど」とを比較する。すると、フレーズの読み「ちょっと」の部分とキーワードの読み「ちょとう」の部分で２文字、フレーズの読み「きゅうと」の部分とキーワードの読み「きゅうとう」の部分で１文字、合計３文字の文字が異なる。このため、類似度算出部２０Ｃは、異なる文字数であるペナルティを「３」とし、上記式（１）に沿って、（１５－３）／１５＝０．８を、類似度として算出する。

類似度算出部２０Ｃは、音声データが英語であった場合も同様に、フレーズを該フレーズの読みに変換する。そして、類似度算出部２０Ｃは、フレーズの読みと、キーワードリスト３２Ａに登録されている複数のキーワードの読みの各々と、の編集距離を類似度として算出する。すなわち、類似度算出部２０Ｃは、上記式（１）によって類似度を算出する。そして、類似度算出部２０Ｃは、算出した類似度を出力類似度として用いる。

類似度算出部２０Ｃは、フレーズの読みとキーワードの読みの各々を音素に変換し、文字数に替えて音素数を用いて、上記と同様にして編集距離を類似度として算出してもよい。

具体的には、例えば、読み「あ」を読み「か」に誤認識した場合と、読み「あ」を読み「き」に誤認識した場合とでは、ひらがな単位で考えるとペナルティは「１」である。また、読み「あ」の音素「ａ」と、読み「か」の音素「ｋａ」とでは、音素単位考えると異なる文字数は「１」である。一方、読み「あ」の音素「ａ」と、読み「き」の音素「ｋｉ」とでは、音素単位で考えるとペナルティは「２」となる。

このため、類似度算出部２０Ｃは、文字数に替えて音素数を用いて編集距離を類似度として算出することで、より高精度に類似度を算出することができる。

次に、類似度算出部２０Ｃによる２種類目の類似度算出方法について説明する。

２種類目の類似度算出方法では、類似度算出部２０Ｃは、編集距離と、文字同士の類似度と、に基づいた類似度を算出する。そして、類似度算出部２０Ｃは、算出した類似度を出力類似度として用いる。

上述した１種類目の類似度算出方法では、類似度算出部２０Ｃは、フレーズとキーワードとの不一致の文字数をペナルティとして用いた。しかし、フレーズとキーワードには、類似文字と非類似の文字が混在して含まれる場合がある。このため、２種類目の類似度算出方法では、類似度算出部２０Ｃは、文字間の類似度に応じたペナルティを与えることで、文字同士の類似度を考慮した類似度を算出する。

類似度算出部２０Ｃは、例えば、音声データの認識結果であるテキスト情報と、正解の書き起こし文と、のペアを大量に予め用意する。そして、類似度算出部２０Ｃは、ペアごとに、文字間の誤認識の割合を予め算出する。

例えば、文字「あ」を正しく認識した数が１００回、文字「お」に誤認識した回数が１０回、文字「わ」に誤認識した回数が５回であった場合を想定する。この場合、文字「あ」と文字「お」との文字間の類似度は１０／（１００＋１０＋５）＝０．０８７となる。

そして、類似度算出部２０Ｃは、編集距離による類似度算出時に、フレーズとキーワードとの間で対応する位置の文字が異なる場合には、１－（文字間の類似度）を文字類似度ペナルティとして用いる。

そして、類似度算出部２０Ｃは、以下式（２）により類似度を算出する。類似度算出部２０Ｃは、算出した類似度を出力類似度として用いる。

類似度＝｛（キーワードの読みを構成する文字数）－（ペナルティ×（１－（文字間の類似度））｝／キーワードの読みを構成する文字数）・・・式（２）

式（２）中、ペナルティは、上記式（１）と同様に、フレーズとキーワードとの異なる文字数である。式（２）中、（１－（文字間の類似度））は、該異なる文字の各々の文字類似度ペナルティである。

類似度算出部２０Ｃが編集距離と文字同士の類似度とに基づいた類似度を出力類似度として用いることで、誤認識しやすい文字間による文字類似度ペナルティは少なく、誤認識しにくい文字間の文字類似度ペナルティは大きくなる。このため、類似度算出部２０Ｃは、文字間の類似度を考慮した編集距離を、出力類似度として算出することができる。

次に、類似度算出部２０Ｃによる３種類目の類似度算出方法について説明する。

３種類目の類似度算出方法では、類似度算出部２０Ｃは、音声データの認識結果であるテキスト情報と、正解の書き起こし文と、のペアを大量に予め用意する。そして、類似度算出部２０Ｃは、テキスト情報に含まれるフレーズと、正解の書き起こし文に含まれるフレーズと、の２つのフレーズ間の類似度を算出するモデルを機械学習モデルとして予め学習する。類似度算出部２０Ｃは、音声データの認識結果と正解の書き起こし文とのペアの類似度は高く、他の組み合わせの類似度は低くなるように、機械学習モデルを予め学習する。そして、類似度算出部２０Ｃは、フレーズ検出部２０Ｂが検出したフレーズとキーワードリスト３２におけるキーワードの読みとのペアを該機械学習モデルへ入力することで、該機械学習モデルからの出力として、類似度を得る。そして、類似度算出部２０Ｃは、得られた類似度を、出力類似度として用いる。

類似度算出部２０Ｃは、編集距離を用いた場合には１文字同士で比較した類似度を算出する。一方、３種類目の類似度算出方法を用いた場合、類似度算出部２０Ｃは、誤りやすいパターンを数文字単位で学習した機械学習モデルを用いて出力類似度を算出することとなる。このため、３種類目の類似度算出方法を用いることで、類似度算出部２０Ｃは、より詳細な出力類似度を算出することができる。

次に、キーワード出力部２０Ｄについて説明する。キーワード出力部２０Ｄは、類似度算出部２０Ｃで算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを出力する。すなわち、キーワード出力部２０Ｄは、出力類似度に応じたキーワードを、テキスト情報に含まれる正しいキーワードとして出力する。

詳細には、キーワード出力部２０Ｄは、キーワードリスト３２に含まれる、出力類似度の高い順に予め定めた数のキーワード、または、出力類似度が閾値以上のキーワードを出力する。

例えば、キーワード出力部２０Ｄは、キーワードをキーワード検出装置１０に通信可能に接続された外部の情報処理装置へ出力する。また、例えば、キーワード出力部２０Ｄは、キーワード検出装置１０に通信可能に接続され、キーワードに基づいた処理を実行するシステムへ、キーワードを出力してもよい。また、キーワード出力部２０Ｄは、キーワードを、制御部２０に通信可能に接続されたディスプレイ、スピーカ、等の出力部へ出力してもよい。

このようにキーワード出力部２０Ｄは、出力類似度の高いキーワードをテキスト情報に含まれるキーワードとして出力することができる。

そして、類似度算出部２０Ｃが、フレーズ「ちょっとユニットキュート温度」の読みと、キーワードリスト３２Ａに登録されているキーワードの読み「ちょとうゆにっときゅうとうおんど」との出力類似度として、出力類似度「０．８０」を算出した場合を想定する。また、類似度算出部２０Ｃが、フレーズ「ちょっとユニットキュート温度」の読みと、キーワードリスト３２Ａに登録されているキーワードの読み「貯湯ユニット」の読みと、の出力類似度として、出力類似度「０．４３」を算出した場合を想定する。また、類似度算出部２０Ｃが、フレーズ「ちょっとユニットキュート温度」の読みと、キーワードリスト３２Ａに登録されているキーワードの読み「せっていほうほう」との出力類似度として、出力類似度「０．００」を算出した場合を想定する。

この場合、キーワード出力部２０Ｄは、例えば、最も出力類似度の高いキーワードの読み「ちょとうゆにっときゅうとうおんど」に対応する表記「貯湯ユニット給湯温度」を、テキスト情報に含まれる正しいキーワードとして出力する。なお、キーワード出力部２０Ｄは、最も出力類似度の高いキーワードの読み、および、該読みに対応する表記、の少なくとも一方を出力すればよい。

英語の場合を例に挙げて説明する。例えば、音声認識部２０Ａに入力された音声の入力情報が「show me how to set a hot water storage water temperature」であった場合を想定する。そして、音声認識部２０Ａによる音声データの認識結果であるテキスト情報が「show me how to set a cotton water strange water temperature」であった場合を想定する。そして、フレーズ検出部２０Ｂが該テキスト情報から、フレーズ「cotton water strange water temperature」を検出した場合を想定する。

そして、類似度算出部２０Ｃが、フレーズ「cotton water strange water temperature」の読みと、キーワードリスト３２Ｂに登録されている表記「hot water storage water temperature」のキーワードの読みとの出力類似度として、出力類似度「０．７９」を算出した場合を想定する。また、類似度算出部２０Ｃが、フレーズ「cotton water strange water temperature」の読みと、キーワードリスト３２Ｂに登録されている表記「hot water storage」のキーワードの読みとの出力類似度として、出力類似度「０．４３」を算出した場合を想定する。また、類似度算出部２０Ｃが、フレーズ「cotton water strange water temperature」の読みと、キーワードリスト３２Ａに登録されている表記「how to set」のキーワードの読みとの出力類似度として、出力類似度「０．００」を算出した場合を想定する。

この場合、キーワード出力部２０Ｄは、例えば、最も出力類似度の高いキーワードの読みに対応する表記「hot water storage water temperature」および該読みの少なくとも一方を、テキスト情報に含まれる正しいキーワードとして出力する。

なお、フレーズ検出部２０Ｂは、テキスト情報からキーワードに関する複数のフレーズを検出してもよい。この場合、類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々と、検出された複数のフレーズの各々と、の類似度を上記と同様にして算出すればよい。そして、類似度算出部２０Ｃは、複数のフレーズの各々毎に算出した複数のキーワードの各々との類似度を、出力類似度として算出すればよい。

また、フレーズ検出部２０Ｂは、テキスト情報からフレーズおよびフレーズがキーワードである確率を検出してもよい。この場合、類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々とフレーズとの類似度およびフレーズの確率に応じた出力類似度を算出すればよい。例えば、類似度算出部２０Ｃは、類似度と確率との乗算結果を、出力類似度として算出する。

詳細には、フレーズ検出部２０Ｂは、機械学習モデルを用いて、テキスト情報からフレーズを、フレーズがキーワードである確率とともに検出する。そして、類似度算出部２０Ｃは、キーワードリスト３２に登録されているキーワードの読みの各々と、フレーズの各々との類似度を算出する。そして、類似度算出部２０Ｃはフレーズの確率と、フレーズとキーワードの読みとの類似度と、の乗算値を、該フレーズの該キーワードに対する出力類似度として算出する。

入力情報が日本語の音声データである場合を想定して説明する。

例えば、入力情報が「貯湯ユニット給湯温度の設定方法を見せて」であり、音声認識部２０Ａによる音声データの認識結果であるテキスト情報が「ちょっとユニットキュート温度の設定方法を見せて」であった場面を想定する。そして、フレーズ検出部２０Ｂが、フレーズ「ちょっとユニットキュート温度」と確率「０．９９」、フレーズ「ユニットキュート温度」と確率「０．９５」、および、フレーズ「ちょっとユニット」と確率「０．９９」、を検出した場面を想定する。

類似度算出部２０Ｃは、キーワードリスト３２Ａに登録されているキーワードの読みの各々と、フレーズの各々との類似度を算出する。そして、類似度算出部２０Ｃはフレーズの確率と、フレーズとキーワードの読みとの類似度と、の乗算値を、該フレーズの該キーワードに対する出力類似度として算出する。

また、例えば、入力情報が「山田さんを検索」であり、音声認識部２０Ａによる音声データの認識結果であるテキスト情報が「山名さんを検索」であった場面を想定する。そして、フレーズ検出部２０Ｂが、フレーズ「山名さん」と確率「０．９９」、および、フレーズ「山名」と確率「０．９５」、を検出した場面を想定する。

また、キーワードリスト３２Ａに、表記「山中」読み「やまなか」のキーワードと、表記「山田」読み「やまだ」のキーワードと、が登録されている場面を想定する。

そして、類似度算出部２０Ｃが、フレーズ「山名さん」の読みと、キーワードの読み「やまなか」と、の類似度として「０．６０」を算出した場合を想定する。この場合、類似度算出部２０Ｃは、フレーズ「山名さん」の確率「０．９９」×類似度「０．６０」の値である「０．５９」を、該フレーズ「山名さん」とキーワードの読み「やまなか」との出力類似度として算出する。

また、類似度算出部２０Ｃが、フレーズ「山名」の読みと、キーワードの読み「やまだ」と、の類似度として「０．６７」を算出した場合を想定する。この場合、類似度算出部２０Ｃは、フレーズ「山名」の確率「０．９４」×類似度「０．６７」の値である「０．６３」を、該フレーズ「山名」とキーワードの読み「やまだ」との出力類似度として算出する。

このように、類似度算出部２０Ｃが、類似度および確率に応じた出力類似度を算出することで、以下の効果が得られる。詳細には、フレーズ検出部２０Ｂで出力された複数のフレーズの少なくとも一部に誤りが含まれる場合であっても、より正しいキーワードに近いフレーズの出力類似度の値を高くすることができる。

なお、類似度算出部２０Ｃは、フレーズの確率と、フレーズとキーワードの読みとの類似度と、の乗算値に替えて、確率と類似度との加算値を出力類似度として算出してもよい。

また、類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々ごとに、フレーズとの類似度と、フレーズがキーワードである確率と、類似度および確率の少なくとも一方に対する重み付け値と、を用いて、出力類似度を算出してもよい。

例えば、類似度より確率を重視する設定が予めなされている場合を想定する。この場合、類似度算出部２０Ｃは、下記式（３）により出力類似度を算出すればよい。

（確率）×（類似度）^０．９＝出力類似度・・・式（３）

このように、類似度算出部２０Ｃは、類似度を小さくする重み付けを行い、出力類似度を算出してもよい。なお、式（３）には、類似度を小さくする重み付け値として「０．９」乗を用いたが、この値に限定されない。

また同様に、類似度算出部２０Ｃは、確率より類似度を重視する重み付け値を用いて、出力類似度を算出してもよい。また、同様に、類似度算出部２０Ｃは、確率および類似度の各々に予め定めた比率の重み値を付与し、出力類似度を算出してもよい。

なお、フレーズ検出部２０Ｂは、テキスト情報から、キーワードに関する互いに文字数の異なる複数のフレーズを検出してよい。また、類似度算出部２０Ｃは、フレーズ検出部２０Ｂで検出されたフレーズと、該フレーズをテキスト情報内で予め定めた文字数分、拡張および縮小の少なくとも一方を行った拡張縮小フレーズと、を、文字数の異なる複数のフレーズとして用いてもよい。

ここで、キーワードリスト３２に登録されているキーワードが、他のキーワードを内包したキーワードである場合を想定する。

日本語の場合を例に説明する。例えば、キーワード「日本あいうえおかきくけこ株式会社」およびキーワード「日本」がキーワードリスト３２に登録されている場合を想定する。この場合、キーワード「日本」は、キーワード「日本あいうえおかきくけこ株式会社」に内包されている。このような場合、これらのキーワードに関するフレーズを含むテキスト情報から、誤認識されたキーワードと、該キーワードに内包された他の御認識されたキーワードと、が誤検出される場合がある。

英語の場合を例に説明する。例えば、キーワード「hot water storage water temperature」およびキーワード「hot water storage」がキーワードリスト３２に登録されている場合を想定する。この場合、キーワード「hot water storage」は、キーワード「hot water storage water temperature」に内包されている。このような場合、これらのキーワードに関するフレーズを含むテキスト情報から、誤認識されたキーワードと、該キーワードに内包された他の御認識されたキーワードと、が誤検出される場合がある。

そこで、類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々と、複数のフレーズの各々との類似度に、キーワードの文字数が少ないほど類似度を小さくする重み付け値を付与した、出力類似度を算出してもよい。すなわち、類似度算出部２０Ｃは、できるだけ長いキーワードがキーワード出力部２０Ｄから出力されるように、キーワードの文字数が少ないほど高いペナルティを与えてもよい。

入力情報である音声が日本語の音声である場合を想定して説明する。

例えば、入力情報が「日本あいうえおかきくけこ株式会社を検索」であり、音声認識部２０Ａによる音声データの認識結果であるテキスト情報が「日本あいうえおかきくけご株式会社を検索」であった場面を想定する。そして、フレーズ検出部２０Ｂがフレーズとして、フレーズ「日本」と確率「０．９９」、および、フレーズ「日本あいうえおかきくけご株式会社」と確率「０．９５」を検出した場面を想定する。

また、キーワードリスト３２Ａに、表記「日本あいうえおかきくけこ株式会社」読み「にほんあいうえおかきくけこかぶしきがいしゃ」のキーワードと、表記「日本」読み「にほん」のキーワードと、が登録されている場面を想定する。

そして、類似度算出部２０Ｃが、フレーズ「日本」の読み「にほん」と、表記「日本」のキーワードの読み「にほん」と、の類似度として「１．０」を算出した場合を想定する。

また、類似度算出部２０Ｃが、フレーズ「日本あいうえおかきくけご株式会社」の読み「にほんあいうえおかきくけごかぶしきかいしゃ」と、表記「日本あいうえおかきくけこ株式会社」のキーワードの読み「にほんあいうえおかきくけこかぶしきがいしゃ」と、の類似度として「０．９５」を算出した場合を想定する。

この場合、類似度算出部２０Ｃは、例えば、読み「にほんあいうえおかきくけこかぶしきがいしゃ」のキーワードの文字数が２０文字、読み「日本」のキーワードの文字数が３文字であることから、差分である１７文字分のペナルティを短いキーワード「日本」に与える。

詳細には、類似度算出部２０Ｃは、フレーズ「日本」の読み「にほん」と、表記「日本」のキーワードの読み「にほん」と、の出力類似度を、以下式（４）により算出する。

出力類似度＝類似度×確率×ペナルティ
＝１．０×０．９９×０．９９^１７
＝０．７６式（４）

式（４）中、「０．９９^１７」が１７文字分のペナルティに相当する。

また、類似度算出部２０Ｃは、フレーズ「日本あいうえおかきくけご株式会社」の読みと、表記「日本あいうえおかきくけこ株式会社」のキーワードの読みと、の出力類似度を、以下式（５）により算出する。

出力類似度＝類似度×確率×ペナルティ
＝０．９５×０．９５
＝０．９０式（５）

このように、類似度算出部２０Ｃは、できるだけ長いキーワードがキーワード出力部２０Ｄから出力されるように、キーワードの文字数が少ないほど高いペナルティを与えた出力類似度を算出してもよい。

次に、キーワード検出装置１０で実行する情報処理の流れの一例を説明する。

図３は、キーワード検出装置１０で実行する情報処理の流れの一例を示すフローチャートである。

音声認識部２０Ａは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する（ステップＳ１００）。

フレーズ検出部２０Ｂは、ステップＳ１００で出力されたテキスト情報から、キーワードに関するフレーズを検出する（ステップＳ１０２）。

類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々と、ステップＳ１０２で検出されたフレーズと、の類似度に応じた出力類似度を算出する（ステップＳ１０４）。

キーワード出力部２０Ｄは、ステップＳ１０４で算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを出力する（ステップＳ１０６）。そして、本ルーチンを終了する。

以上説明したように、本実施形態のキーワード検出装置１０は、フレーズ検出部２０Ｂと、類似度算出部２０Ｃと、キーワード出力部２０Ｄと、を備える。フレーズ検出部２０Ｂは、所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出する。類似度算出部２０Ｃは、複数のキーワードごとに、キーワードのキーワード表記と、キーワードを入力形態で表したキーワード形態情報と、を対応付けたキーワードリスト３２に含まれる複数のキーワードの各々とフレーズとの類似度に応じた出力類似度を算出する。キーワード出力部２０Ｄは、出力類似度に応じて、キーワードリスト３２におけるキーワードを出力する。

ここで、従来技術では、キーワード単体が入力情報として入力されることを前提としており、キーワードを含む自然文等の入力情報が入力された場合、入力情報に含まれるキーワードの箇所を特定することが困難であった。また、正解キーワードの音素列を音声認識結果の音素列中で検索することでキーワード箇所を特定する従来技術では、音素に誤りがある場合キーワードの箇所を特定することが困難であった。すなわち、従来技術では、認識結果に誤りが含まれる場合、正しいキーワードを出力することは困難であった。

一方、本実施形態のキーワード検出装置１０では、フレーズ検出部２０Ｂが入力情報の認識結果であるテキスト情報からキーワードに関するフレーズを検出する。そして、キーワード出力部２０Ｄは、キーワードリスト３２に含まれるキーワードとフレーズとの類似度に応じた出力類似度に応じて、キーワードリスト３２におけるキーワードを出力する。

このように、本実施形態のキーワード検出装置１０では、キーワードに関するフレーズとキーワードとの出力類似度に応じたキーワードを出力する。このため、本実施形態のキーワード検出装置１０は、入力情報がキーワードを含む自然文である場合や、入力情報の認識結果であるテキスト情報に誤りが含まれる場合であっても、正しいキーワードを出力することができる。

従って、本実施形態のキーワード検出装置１０は、入力情報の認識結果に誤りが含まれる場合であっても、正しいキーワードを出力することができる。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。

本実施形態では、上記実施形態と同様に、入力形態が音声であり、入力情報が音声データである形態を一例として説明する。

図４は、本実施形態のキーワード検出装置１０Ｂの一例の機能ブロック図である。

キーワード検出装置１０Ｂは、制御部２１と、記憶部３０と、備える。制御部２１と記憶部３０とはデータおよび信号を授受可能に接続されている。記憶部３０は、上記実施形態と同様である。

制御部２１は、キーワード検出装置１０Ｂにおいて情報処理を実行する。制御部２１は、音声認識部２０Ａと、フレーズ検出部２０Ｂと、類似度算出部２０Ｃと、キーワード出力部２１Ｄと、キーワードスポッティング部２１Ｅと、キーワード選択部２１Ｆと、を備える。すなわち、制御部２１は、キーワード出力部２０Ｄに替えてキーワード出力部２１Ｄを備え、キーワードスポッティング部２１Ｅおよびキーワード選択部２１Ｆを更に備える点以外は、上記実施形態の制御部２０と同様である。

キーワード出力部２１Ｄは、キーワード出力部２０Ｄと同様に、類似度算出部２０Ｃで算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを出力する。キーワード出力部２１Ｄは、出力類似度に応じたキーワードリスト３２におけるキーワードを、第１キーワードとしてキーワード選択部２１Ｆへ出力する。

キーワードスポッティング部２１Ｅは、テキスト情報から、キーワードリスト３２に含まれるキーワードを第２キーワードとして抽出する。すなわち、キーワードスポッティング部２１Ｅは、入力情報の認識結果であるテキスト情報に含まれる、キーワードリスト３２に登録されているキーワードに一致するキーワードを、第２キーワードとして抽出する。

日本語の場合を例に挙げて説明する。例えば、音声認識部２０Ａに入力された音声の入力情報が「貯湯ユニット給湯温度の設定方法を見せて」であった場合を想定する。そして、音声認識部２０Ａによる音声データの認識結果であるテキスト情報が「貯湯ユニットキュート温度の設定方法見せて」であった場合を想定する。そして、フレーズ検出部２０Ｂが該テキスト情報から、フレーズ「ちょっとユニットキュート温度」を検出した場合を想定する。

この場合、キーワードスポッティング部２１Ｅは、音声データの認識結果であるテキスト情報「貯湯ユニットキュート温度の設定方法見せて」から、キーワードリスト３２Ａに登録されているキーワードに一致する「貯湯ユニット」および「設定方法」を抽出する。

キーワード選択部２１Ｆは、キーワード出力部２１Ｄから出力されたキーワードである第１キーワード、および、キーワードスポッティング部２１Ｅで抽出された第２キーワード、の少なくとも１つ以上を選択する。そして、キーワード選択部２１Ｆは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力する。

日本語の場合を例に挙げて説明する。例えば、キーワードスポッティング部２１Ｅが、音声データの認識結果であるテキスト情報が「貯湯ユニットキュート温度の設定方法見せて」から、「貯湯ユニット」および「設定方法」を第２キーワードとして抽出した場合を想定する。また、フレーズ検出部２０Ｂが該テキスト情報からフレーズ「貯湯ユニットキュート温度」を検出した場合を想定する。そして、キーワード出力部２１Ｄが類似度算出部２０Ｃによって算出された出力類似度に応じて第１キーワード「貯湯ユニット給湯温度」を出力した場合を想定する。

この場合、キーワード選択部２１Ｆは、キーワード出力部２１Ｄから出力された第１キーワード「貯湯ユニット給湯温度」、キーワードスポッティング部２１Ｅで抽出された第２キーワード「貯湯ユニット」および「設定方法」、の少なくとも１つ以上を選択して出力する。

例えば、キーワード選択部２１Ｆは、「貯湯ユニット給湯温度」と「設定方法」のように、テキスト情報における非重複の箇所の各々からそれぞれ検出されたキーワードについては、双方とも選択する。また、キーワード選択部２１Ｆは、テキスト情報における重複する箇所から検出された複数のキーワードについては、少なくとも１つのキーワードを選択すればよい。例えば、「貯湯ユニット」と「貯湯ユニット給湯温度」はテキスト情報における重複する箇所から検出されている。ユーザが発話した音声は何れか一方であると推測されるため、重複する箇所から検出されたキーワードについては１つに絞ることが好ましい。しかし、後段野処理によっては１つに絞る必要のない場合がある。このため、テキスト情報における重複する箇所から検出された複数のキーワードについては、キーワード選択部２１Ｆは、該複数のキーワードから少なくとも１つのキーワードを選択すればよく、全てのキーワードを選択してもよい。

また、読みが同じであるが表記の異なるキーワードは、音声認識では区別して識別することが困難である。日本語の例の場合、例えば、読み「わたなべ」であり表記「渡辺」であるキーワードと、読み「わたなべ」であり表記「渡邉」であるキーワードとは、音声認識では区別して識別することは困難である。このような場合、キーワード選択部２１Ｆは、１または複数の第１キーワードおよび１または複数の第２キーワードの中から、１つのキーワードのみを選択しなくてもよい。例えば、後段の機能部等で適宜１つのキーワードに絞る処理などを行えばよい。

キーワード選択部２１Ｆは、選択したキーワードを出力する。例えば、キーワード選択部２１Ｆは、選択したキーワードを、キーワード検出装置１０Ｂに通信可能に接続された外部の情報処理装置へ出力する。また、例えば、キーワード選択部２１Ｆは、キーワード検出装置１０に通信可能に接続され、キーワードに基づいた処理を実行するシステムへ、キーワードを出力してもよい。また、キーワード選択部２１Ｆは、キーワードを、制御部２０に通信可能に接続されたディスプレイ、スピーカ、等の出力部へ出力してもよい。

次に、キーワード検出装置１０Ｂで実行する情報処理の流れの一例を説明する。

図５は、キーワード検出装置１０Ｂで実行する情報処理の流れの一例を示すフローチャートである。

ステップ２００～ステップＳ２０４の処理は、上記第１実施形態のステップＳ１００～ステップＳ１０４の処理と同様である（図３参照）。

詳細には、音声認識部２０Ａは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する（ステップＳ２００）。フレーズ検出部２０Ｂは、ステップＳ２００で出力されたテキスト情報から、キーワードに関するフレーズを検出する（ステップＳ２０２）。類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々と、ステップＳ２０２で検出されたフレーズと、の類似度に応じた出力類似度を算出する（ステップＳ２０４）。

キーワード出力部２１Ｄは、ステップＳ２０４で算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを第１キーワードとして出力する（ステップＳ２０６）。

キーワードスポッティング部２１Ｅは、ステップＳ２００で出力されたテキスト情報から、キーワードリスト３２に含まれるキーワードを第２キーワードとして抽出する（ステップＳ２０８）。

キーワード選択部２１Ｆは、ステップＳ２０６でキーワード出力部２１Ｄから出力されたキーワードである第１キーワード、および、ステップＳ２０８で抽出された第２キーワード、の少なくとも１つ以上を選択する（ステップＳ２１０）。そして、キーワード選択部２１Ｆは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力し、本ルーチンを終了する。

以上説明したように、本実施形態のキーワード検出装置１０Ｂでは、キーワードスポッティング部２１Ｅが、テキスト情報から、キーワードリスト３２に含まれるキーワードを第２キーワードとして抽出する。キーワード選択部２１Ｆは、キーワード出力部２１Ｄから出力されたキーワードである第１キーワード、および、キーワードスポッティング部２１Ｅで抽出された第２キーワード、の少なくとも１つ以上を選択する。そして、キーワード選択部２１Ｆは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力する。

このため、本実施形態のキーワード検出装置１０Ｂは、上記実施形態の効果に加えて、入力情報から更に正しいキーワードを出力することができる。

（第３実施形態）
次に第３実施形態について説明する。第３実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。

図６は、本実施形態のキーワード検出装置１０Ｃの一例の機能ブロック図である。

キーワード検出装置１０Ｃは、制御部２３と、記憶部３０と、備える。制御部２３と記憶部３０とはデータおよび信号を授受可能に接続されている。記憶部３０は、上記実施形態と同様である。

制御部２３は、キーワード検出装置１０Ｃにおいて情報処理を実行する。制御部２３は、音声認識部２０Ａと、フレーズ検出部２０Ｂと、類似度算出部２０Ｃと、キーワード出力部２１Ｄと、キーワードスポッティング部２１Ｅと、アライメント部２３Ｇと、キーワード選択部２３Ｆと、を備える。すなわち、制御部２３は、キーワード選択部２１Ｆに替えてキーワード選択部２３Ｆを備え、アライメント部２３Ｇを更に備える点以外は、上記実施形態の制御部２１と同様である。

本実施形態では、音声認識部２０Ａは、入力情報である音声データを取得し、１つの音声データの認識結果として複数のテキスト情報を出力する。すなわち、本実施形態では、音声認識部２０Ａは、入力情報である音声データの認識結果として、複数のテキスト情報を出力する。

フレーズ検出部２０Ｂは、複数のテキスト情報の各々から上記実施形態と同様にしてフレーズを検出する。類似度算出部２０Ｃは、上記実施形態と同様に、キーワードリスト３２に含まれる複数のキーワードの各々と、フレーズ検出部２０Ｂで検出されたフレーズと、の類似度に応じた出力類似度を算出する。キーワード出力部２１Ｄは、上記実施形態と同様に、類似度算出部２０Ｃで算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを出力する。キーワード出力部２１Ｄは、上記実施形態と同様に、出力類似度に応じたキーワードリスト３２におけるキーワードを、第１キーワードとして選択する。そして、キーワード出力部２１Ｄは、第１キーワードをアライメント部２３Ｇへ出力する。

キーワードスポッティング部２１Ｅは、複数のテキスト情報の各々から、キーワードリスト３２に含まれるキーワードを第２キーワードとして抽出する。

アライメント部２３Ｇは、１または複数の第１キーワードおよび１または複数の第２キーワードの各々について、テキスト情報における対応領域の少なくとも一部が重複する複数のキーワードの群を特定する。テキスト情報における対応領域とは、テキスト情報における位置および範囲を意味する。テキスト情報が音声データの認識結果である場合、対応領域は、テキスト情報における発話開始時間と発話終了期間によって規定される発話期間等によって表される。

日本語の場合を例に挙げて説明する。例えば、音声認識部２０Ａが、１つの音声データである入力情報から、「超ユニットキュート温度探して」、「ちょっとユニットキュート温度を探して」、および「貯槽ユニット給湯温度を探して」の３つの音声認識結果であるテキスト情報を出力した場合を想定する。

そして、これらのテキスト情報の各々から、キーワード出力部２１Ｄおよびキーワードスポッティング部２１Ｅによって、以下のキーワードが第１キーワードおよび第２キーワードとして出力された場面を想定する。

・テキスト情報：「超ユニットキュート温度探して」
・キーワード出力無し。
・テキスト情報に含まれる単語／対応領域
：超／対応領域（発話開始時刻：２，発話終了時刻：５）
：ユニット／対応領域（発話開始時刻：５，発話終了時刻：１２）
：キュート／対応領域（発話開始時刻：１２，発話終了時刻：１７）
：温度／対応領域（発話開始時刻：１７，発話終了時刻：２１）
：探して／対応領域（発話開始時刻：２１，発話終了時刻：２８）

・テキスト情報：「ちょっとユニットキュート温度を探して」
・キーワード／対応領域：「貯湯ユニット給湯温度」／対応領域（発話開始時刻：０，発話終了時刻：２１）
・テキスト情報に含まれる単語／対応領域
：ちょっと／対応領域（発話開始時刻：０，発話終了時刻：５）
：ユニット／対応領域（発話開始時刻：５，発話終了時刻：１２）
：キュート／対応領域（発話開始時刻：１２，発話終了時刻：１７）
：温度／対応領域（発話開始時刻：１７，発話終了時刻：２１）
：を／対応領域（発話開始時刻：２１，発話終了時刻：２２）
：探して／対応領域（発話開始時刻：２２，発話終了時刻：２８）

・テキスト情報：「貯槽ユニット給湯温度を探して」
・キーワード／対応領域：「直送ユニット」／対応領域（発話開始時刻：０，発話終了時刻：１２）
：貯槽／対応領域（発話開始時刻：０，発話終了時刻：５）
：ユニット／対応領域（発話開始時刻：５，発話終了時刻：１２）
：給湯／対応領域（発話開始時刻：１２，発話終了時刻：１７）
：温度／対応領域（発話開始時刻：１７，発話終了時刻：２１）
：探して／対応領域（発話開始時刻：２１，発話終了時刻：２８）

この場合、アライメント部２３Ｇは、複数のテキスト情報の各々について、テキスト情報に含まれる複数の単語の各々のテキスト情報における発話開始時刻および発話終了時刻を特定することで、単語の各々のテキスト情報における対応領域を特定する。そして、アライメント部２３Ｇは、単語の各々の対応領域を用いて、テキスト情報から導出されたキーワードの各々の発話開始時刻および発話終了時刻を求めることで、対応領域を特定する。

アライメント部２３Ｇは、第１キーワードおよび第２キーワードであるキーワードごとに特定した対応領域を用いて、対応領域である発話期間の少なくとも一部が重複するキーワード群を特定する。

キーワード選択部２３Ｆは、キーワード出力部２１Ｄから出力された１または複数の第１キーワード、およびキーワードスポッティング部２１Ｅから出力された１または複数の第２キーワードの内、アライメント部２３Ｇで特定された同一の群に属する複数のキーワードの内の少なくとも１つ以上と、群に属さない１または複数のキーワードの内の少なくとも１つ以上と、を選択する。

例えば、キーワード選択部２３Ｆは、キーワードスポッティング部２１Ｅで抽出された第２キーワードの少なくとも１つ以上と、キーワード出力部２１Ｄから出力され、同じ群に属する複数の第１キーワードの内、出力類似度の高い順に予め定めた数または出力類似度が閾値以上の第１キーワードと、を選択する。

また、例えば、キーワード選択部２３Ｆは、異なるテキスト情報から検出されたキーワードの内、出力類似度の高いキーワードを含むテキスト情報から検出されたキーワードから、キーワードを選択してもよい。

そして、キーワード選択部２３Ｆは、選択したキーワードを出力する。例えば、キーワード選択部２３Ｆは、選択したキーワードを、キーワード検出装置１０Ｃに通信可能に接続された外部の情報処理装置へ出力する。また、例えば、キーワード選択部２３Ｆは、キーワード検出装置１０に通信可能に接続され、キーワードに基づいた処理を実行するシステムへ、キーワードを出力してもよい。また、キーワード選択部２３Ｆは、キーワードを、制御部２０に通信可能に接続されたディスプレイ、スピーカ、等の出力部へ出力してもよい。

次に、キーワード検出装置１０Ｃで実行する情報処理の流れの一例を説明する。

図７は、キーワード検出装置１０Ｃで実行する情報処理の流れの一例を示すフローチャートである。

ステップ３００～ステップＳ３０８の処理は、上記第２実施形態のステップＳ２００～ステップＳ２０８の処理と同様である（図５参照）。

詳細には、音声認識部２０Ａは、入力情報である音声データを取得し、音声データの認識結果として、複数のテキスト情報を出力する（ステップＳ３００）。フレーズ検出部２０Ｂは、ステップＳ３００で出力された複数のテキスト情報の各々から、キーワードに関するフレーズを検出する（ステップＳ３０２）。類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々と、ステップＳ３０２で検出されたフレーズと、の類似度に応じた出力類似度を算出する（ステップＳ３０４）。

キーワード出力部２１Ｄは、ステップＳ３０４で算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを第１キーワードとして出力する（ステップＳ３０６）。キーワードスポッティング部２１Ｅは、ステップＳ３００で出力された複数のテキスト情報の各々から、キーワードリスト３２に含まれるキーワードを第２キーワードとして抽出する（ステップＳ３０８）。

アライメント部２３Ｇは、ステップＳ３０６で出力された第１キーワードおよびステップＳ３０８で出力された第２キーワードの各々について、テキスト情報における対応領域の少なくとも一部が重複する複数のキーワードの群を特定する（ステップＳ３１０）。

キーワード選択部２３Ｆは、キーワード出力部２１Ｄから出力された１または複数の第１キーワード、およびキーワードスポッティング部２１Ｅから出力された１または複数の第２キーワードの内、アライメント部２３Ｇで特定された同一の群に属する複数のキーワードの内の少なくとも１つ以上と、群に属さない１または複数のキーワードの内の少なくとも１つ以上と、を選択する。そして、キーワード選択部２３Ｆは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力し、本ルーチンを終了する。

以上説明したように、本実施形態のキーワード検出装置１０Ｃでは、アライメント部２３Ｇが、第１キーワードおよび第２キーワードの各々について、テキスト情報における対応領域の少なくとも一部が重複する複数のキーワードの群を特定する。キーワード選択部２３Ｆは、キーワード出力部２１Ｄから出力された１または複数の第１キーワード、およびキーワードスポッティング部２１Ｅから出力された１または複数の第２キーワードの内、アライメント部２３Ｇで特定された同一の群に属する複数のキーワードの内の少なくとも１つ以上と、群に属さない１または複数のキーワードの内の少なくとも１つ以上と、を選択する。そして、キーワード選択部２３Ｆは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力する。

（第４実施形態）
次に第４実施形態について説明する。第４実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。

図８は、本実施形態のキーワード検出装置１０Ｄの一例の機能ブロック図である。

キーワード検出装置１０Ｄは、制御部２５と、記憶部３０と、備える。制御部２５と記憶部３０とはデータおよび信号を授受可能に接続されている。記憶部３０は、上記実施形態と同様である。

制御部２５は、キーワード検出装置１０Ｄにおいて情報処理を実行する。制御部２５は、音声認識部２０Ａと、フレーズ検出部２０Ｂと、類似度算出部２０Ｃと、キーワード出力部２１Ｄと、キーワードスポッティング部２１Ｅと、キーワード選択部２１Ｆと、検索部２５Ｈと、を備える。すなわち、制御部２５は、検索部２５Ｈを更に備える点以外は、上記実施形態の制御部２１と同様である。

検索部２５Ｈは、キーワード選択部２１Ｆで選択された複数のキーワードの内、テキスト情報における対応領域が重複するキーワードをＯＲ条件で結合し、対応領域が非重複のキーワードをＡＮＤ条件で結合した、検索クエリを生成する。そして、検索部２５Ｈは、生成した検索クエリを用いてデータベースＤＢを検索する。

データベースＤＢは、ネットワークＮ等を介してキーワード検出装置１０に通信可能に接続されている。データベースＤＢには、一つ以上のコンテンツが格納されている。各コンテンツは、名前、説明文などのテキスト情報を保持している。

データベースＤＢは、例えば、キーワード検出装置１０に通信可能に接続された外部サーバ等に搭載されている。

外部サーバは、例えば、ネットワークＮ上で扱われる各種のデータを管理する情報処理装置である。外部サーバは、例えば、ＳＮＳ（ＳｏｃｉａｌＮｅｔｗｏｒｋｉｎｇＳｅｒｖｉｃｅ）サーバ、管理サーバ、検索サーバ、などである。ＳＮＳサーバは、ＳＮＳで扱われるデータを管理するサーバである。管理サーバは、例えば、新聞やラジオなどのマスメディア機関によって管理されるサーバ、ユーザによって作成または発信された各種の情報やユーザに関する情報を管理するサーバ、などである。検索サーバは、例えば、検索機能を提供するウェブサイトなどの検索サイトを管理するサーバである。なお、図８には、１つのデータベースＤＢを模式的に示した。しかし、キーワード検出装置１０Ｄは、１または複数のデータベースＤＢに通信可能に接続された構成であればよい。

日本語の場合を例に挙げて説明する。例えば、音声認識部２０Ａによる音声データの認識結果であるテキスト情報が「開発部Ａの川村さん」であった場合を想定する。そして、キーワード選択部２１Ｆが、キーワードとして、「開発部Ａ」「川村」および「河村」を選択した場面を想定する。

キーワード選択部２１Ｆは、複数のキーワードの各々にグループＩＤを付与する。詳細には、キーワード選択部２１Ｆは、テキスト情報における対応領域が重複する領域から検出されたキーワードに、同じグループＩＤを付与する。例えば、キーワード選択部２１Ｆが、キーワード「開発部Ａ」にグループＩＤ「１」を付与し、キーワード「川村」およびキーワード「河村」にグループＩＤ「２」を付与した場合を想定する。

この場合、キーワード選択部２１Ｆは、同じグループＩＤを付与されたキーワードをＯＲ条件で結合し、異なるグループＩＤを付与されたキーワードをＡＮＤ条件で結合することで、検索クエリを生成する。

具体的には、キーワード選択部２１Ｆは、以下の検索クエリを生成する。

検索クエリ：
ｓｅｌｅｃｔ＊ｆｒｏｍｄａｔａｂａｓｅｗｈｅｒｅｎａｍｅｌｉｋｅ “％開発部Ａ％” ＡＮＤ（ｎａｍｅｌｉｋｅ “％川村％” ＯＲｎａｍｅｌｉｋｅ “％河村％”）

そして、キーワード選択部２１Ｆは、生成した検索クエリを用いることで、キーワード「河村」または「川村」を含み、且つキーワード「開発部Ａ」を含むコンテンツをデータベースＤＢから検索することが出来る。

なお、音声認識部２０Ａでは、読みが同じ単語である「河村」と「川村」とを区別して認識することはできない。このため、キーワード選択部２１Ｆは、キーワード出力部２１Ｄおよびキーワードスポッティング部２１Ｅから出力された、テキスト情報における対応領域が重複する領域から検出されたキーワードをＯＲ条件で結合した検索クエリを生成する。検索部２５Ｈは、検索した該当するコンテンツが１つのみである場合には、検索した１つのコンテンツをディスプレイ等の出力部に出力すればよい。また、検索部２５Ｈは、検索した該当するコンテンツが複数である場合には、複数のコンテンツをディスプレイ等の出力部へ出力すればよい。また、検索部２５Ｈは、１つのコンテンツの選択入力を要求するメッセージ等をディスプレイに出力し、１つのコンテンツのユーザによる選択入力を要求してもよい。

次に、キーワード検出装置１０Ｄで実行する情報処理の流れの一例を説明する。

図９は、キーワード検出装置１０Ｄで実行する情報処理の流れの一例を示すフローチャートである。

ステップ４００～ステップＳ４１０の処理は、上記第２実施形態のステップＳ２００～ステップＳ２１０の処理と同様である（図５参照）。

詳細には、音声認識部２０Ａは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する（ステップＳ４００）。フレーズ検出部２０Ｂは、ステップＳ４００で出力されたテキスト情報から、キーワードに関するフレーズを検出する（ステップＳ４０２）。類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々と、ステップＳ４０２で検出されたフレーズと、の類似度に応じた出力類似度を算出する（ステップＳ４０４）。

キーワード出力部２１Ｄは、ステップＳ４０４で算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを第１キーワードとして出力する（ステップＳ４０６）。キーワードスポッティング部２１Ｅは、ステップＳ４００で出力されたテキスト情報から、キーワードリスト３２に含まれるキーワードを第２キーワードとして抽出する（ステップＳ４０８）。キーワード選択部２１Ｆは、ステップＳ４０６でキーワード出力部２１Ｄから出力されたキーワードである第１キーワード、および、ステップＳ４０８で抽出された第２キーワード、の少なくとも１つ以上を選択する（ステップＳ４１０）。

検索部２５Ｈは、キーワード選択部２１Ｆで選択された複数のキーワードの内、テキスト情報における対応領域が重複するキーワードをＯＲ条件で結合し、対応領域が非重複のキーワードをＡＮＤ条件で結合した、検索クエリを生成する。そして、検索部２５Ｈは、生成した検索クエリを用いてデータベースＤＢを検索する（ステップＳ４１２）。そして、本ルーチンを終了する。

以上説明したように、本実施形態のキーワード検出装置１０Ｄは、検索部２５Ｈを更に備える。検索部２５Ｈは、キーワード選択部２１Ｆで選択された複数のキーワードの内、テキスト情報における対応領域が重複するキーワードをＯＲ条件で結合し、対応領域が非重複のキーワードをＡＮＤ条件で結合した、検索クエリを生成する。そして、検索部２５Ｈは、生成した検索クエリを用いてデータベースＤＢを検索する。

このため、本実施形態のキーワード検出装置１０Ｄは、上記実施形態の効果に加えて、入力情報から正しいキーワードに関する情報を効率よく検索することができる。

（第５実施形態）
次に第５実施形態について説明する。第５実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。

図１０は、本実施形態のキーワード検出装置１０Ｅの一例の機能ブロック図である。

キーワード検出装置１０Ｅは、制御部２７と、記憶部３０と、備える。制御部２７と記憶部３０とはデータおよび信号を授受可能に接続されている。記憶部３０は、上記実施形態とのキーワードリスト３２に替えてキーワードリスト３４を予め記憶する。

キーワードリスト３４は、複数のキーワードごとに、キーワードのキーワード表記と、キーワードを入力形態で表したキーワード形態情報と、キーワードの属性と、を対応付けたリストである。属性は、キーワードの種類を示す。

図１１Ａは、キーワードリスト３４Ａのデータ構成の一例を示す模式図である。キーワードリスト３４Ａは、入力情報である音声が日本語の音声である場合のキーワードリスト３４の一例である。キーワードリスト３４Ａには、３つのキーワードの各々について、表記と読みと属性とが対応付けて登録されている例を示す。なお、キーワードリスト３４Ａには、２つまたは４つ以上の複数のキーワードが登録されているが、簡略化のために、図１１Ａにはその一部を示す。

図１１Ｂは、キーワードリスト３４Ｂのデータ構成の一例を示す模式図である。キーワードリスト３４Ｂは、入力情報である音声が英語の音声である場合のキーワードリスト３４の一例である。キーワードリスト３４Ｂには、３つのキーワードの各々について、表記と読みとが対応付けて登録されている例を示す。なお、キーワードリスト３４Ｂには、２つまたは４つ以上の複数のキーワードが登録されているが、簡略化のために、図１１Ｂにはその一部を示す。

図１に戻り説明を続ける。制御部２７は、キーワード検出装置１０Ｅにおいて情報処理を実行する。制御部２７は、音声認識部２０Ａと、フレーズ検出部２０Ｂと、類似度算出部２７Ｃと、キーワード出力部２１Ｄと、キーワードスポッティング部２１Ｅと、キーワード選択部２１Ｆと、応答出力部２７Ｉと、を備える。制御部２７は、類似度算出部２０Ｃに替えて類似度算出部２７Ｃを備えＲ、応答出力部２７Ｉを更に備える点以外は、上記実施形態の制御部２１と同様である。

応答出力部２７Ｉは、キーワードリスト３４に登録されている属性を含む応答メッセージを出力する。応答メッセージは、ユーザによる発話の処理結果に応じて生成され、ユーザに対して次の音声の発話を促すためのメッセージである。例えば、応答出力部２７Ｉは、制御部２７に電気的に接続されたスピーカまたはディスプレイ等の出力部に、応答メッセージを出力する。

日本語の例の場合、例えば、応答出力部２７Ｉは、属性「機器」含む応答メッセージ「機器名を教えて下さい」を出力する。属性「機器」を含む応答メッセージの出力後に入力される入力情報には、属性「機器」に対応する単語が含まれることが想定される。この場合、例えば、入力情報には、機器名が含まれる可能性が高い。

そこで、類似度算出部２７Ｃは、応答出力部２７Ｉから応答メッセージが出力された後に入力された入力情報の認識結果であるテキスト情報から検出されたフレーズと、キーワードリスト３４における応答メッセージに含まれる属性に対応するキーワード形態情報である読みと、の類似度に応じた出力類似度を算出する。応答出力部２７Ｉから応答メッセージが出力された後に入力された入力情報は、応答メッセージの出力から予め定めた期間内に入力された入力情報であればよい。

詳細には、類似度算出部２７Ｃは、キーワードリスト３４における、直前に出力された応答メッセージに含まれる属性に対応するキーワードを特定する。そして、類似度算出部２７Ｃは、特定した１または複数のキーワードの各々と、フレーズ検出部２０Ｂで検出されたフレーズと、の出力類似度を、上記実施形態の類似度算出部２０Ｃと同様にして算出する。

次に、キーワード検出装置１０Ｅで実行する情報処理の流れの一例を説明する。

図１２は、キーワード検出装置１０Ｅで実行する情報処理の流れの一例を示すフローチャートである。

応答出力部２７Ｉが、属性を含む応答メッセージを出力する（ステップＳ５００）。

次に、音声認識部２０Ａが、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する（ステップＳ５０２）。フレーズ検出部２０Ｂは、ステップＳ５０２で出力されたテキスト情報から、キーワードに関するフレーズを検出する（ステップＳ５０４）。

類似度算出部２７Ｃは、キーワードリスト３２における、ステップＳ５００で出力された応答メッセージに含まれる属性に対応する１または複数のキーワードの各々と、ステップＳ５０４で検出されたフレーズと、の類似度に応じた出力類似度を算出する（ステップＳ５０６）。

キーワード出力部２１Ｄは、ステップＳ５０６で算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを第１キーワードとして出力する（ステップＳ５０８）。

キーワードスポッティング部２１Ｅは、ステップＳ５０２で出力されたテキスト情報から、キーワードリスト３２に含まれるキーワードを第２キーワードとして抽出する（ステップＳ５１０）。なお、キーワードスポッティング部２１Ｅは、ステップＳ５０２で出力されたテキスト情報から、キーワードリスト３２における応答メッセージに含まれる属性に対応するキーワードを、第２キーワードとして抽出してもよい。

キーワード選択部２１Ｆは、ステップＳ５０８でキーワード出力部２１Ｄから出力されたキーワードである第１キーワード、および、ステップＳ５１０で抽出された第２キーワード、の少なくとも１つ以上を選択する（ステップＳ５１２）。そして、本ルーチンを終了する。

以上説明したように、本実施形態のキーワード検出装置１０Ｅは、応答出力部２７Ｉを備える。応答出力部２７Ｉは、キーワードリスト３４に登録されている属性を含む応答メッセージを出力する。類似度算出部２７Ｃは、応答出力部２７Ｉから応答メッセージが出力された後に入力された入力情報の認識結果であるテキスト情報から検出されたフレーズと、キーワードリスト３４における応答メッセージに含まれる属性に対応するキーワード形態情報と、の類似度に応じた出力類似度を算出する。

このように、本実施形態では、類似度算出部２７Ｃは、応答出力部２７Ｉから応答メッセージが出力された後に入力された入力情報の認識結果であるテキスト情報から検出されたフレーズと、キーワードリスト３４における応答メッセージに含まれる属性に対応するキーワード形態情報である読みと、の類似度に応じた出力類似度を算出する。このため、本実施形態のキーワード検出装置１０Ｅでは、応答メッセージに含まれる属性以外の属性に対応するキーワードが出力されることを抑制することができる。

従って、本実施形態のキーワード検出装置１０Ｅは、上記実施形態の効果に加えて、入力情報から正しいキーワードを出力することができる。

（第６実施形態）
次に第６実施形態について説明する。第６実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。

図１３は、本実施形態のキーワード検出装置１０Ｆの一例の機能ブロック図である。

キーワード検出装置１０Ｆは、制御部２９と、記憶部３０と、備える。制御部２９と記憶部３０とはデータおよび信号を授受可能に接続されている。記憶部３０は、上記実施形態と同様である。

制御部２９は、キーワード検出装置１０Ｆにおいて情報処理を実行する。制御部２９は、音声認識部２０Ａと、フレーズ検出部２０Ｂと、類似度算出部２０Ｃと、キーワード出力部２９Ｄと、変換部２９Ｊと、を備える。すなわち、制御部２９は、キーワード出力部２０Ｄに替えてキーワード出力部２９Ｄを備え、変換部２９Ｊを更に備える点以外は、上記実施形態の制御部２０と同様である。

キーワード出力部２９Ｄは、キーワードを変換部２９Ｊに出力する点以外は、上記実施形態のキーワード出力部２０Ｄと同様である。

変換部２９Ｊは、テキスト情報に含まれるフレーズを、キーワード出力部２９Ｄから出力されたキーワードに変換した変換テキスト情報を生成する。そして、変換部２９Ｊは、変換テキスト情報を、ディスプレイ等の出力部へ出力する。

図１４Ａは、変換部２９Ｊが出力する表示画面５０の一例の説明図である。図１４Ａには、入力情報である音声が日本語の音声である場合の表示画面５０の一例を示す。

例えば、キーワード出力部２９Ｄが音声データの認識結果であるテキスト情報を表示した場合、ディスプレイには表示画面５０Ａが表示される。表示画面５０Ａには、誤認識を含むテキスト情報である「ちょっとユニットキュート温度の設定方法を見せて」が含まれる。一方、フレーズ検出部２０Ｂによってフレーズ「ちょっとユニットキュート温度」が検出され、キーワード出力部２９Ｄからキーワード「貯湯ユニット給湯温度」が出力された場合を想定する。この場合、変換部２９Ｊは、テキスト情報に含まれるフレーズ「ちょっとユニットキュート温度」を出力されたキーワード「貯湯ユニット給湯温度」に変換した変換テキスト情報を含む表示画面５０Ｂを出力する。

図１４Ｂは、変換部２９Ｊが出力する表示画面５０の一例の説明図である。図１４Ｂには、入力情報である音声が英語の音声である場合の表示画面５０の一例を示す。

例えば、音声データの認識結果であるテキスト情報を表示した場合、ディスプレイには、表示画面５０Ａが表示される。表示画面５０Ｃには、誤認識を含むテキスト情報である「show me how to set a cotton water strange water temperature」が含まれる。一方、フレーズ検出部２０Ｂによってフレーズ「cotton water strange water temperature」が検出され、キーワード出力部２９Ｄからキーワード「hot water storage water temperature」が出力された場合を想定する。この場合、変換部２９Ｊは、テキスト情報に含まれるフレーズ「cotton water strange water temperature」を出力されたキーワード「hot water storage water temperature」に変換した変換テキスト情報を含む表示画面５０Ｄを出力する。

このため、ユーザは、表示画面５０を視認することで、正しい認識結果を容易に確認することができる。

次に、キーワード検出装置１０Ｆで実行する情報処理の流れの一例を説明する。

図１５は、キーワード検出装置１０Ｆで実行する情報処理の流れの一例を示すフローチャートである。

ステップ６００～ステップＳ６０６の処理は、上記第１実施形態のステップＳ１００～ステップＳ１０６の処理と同様である（図３参照）。

詳細には、音声認識部２０Ａは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する（ステップＳ６００）。フレーズ検出部２０Ｂは、ステップＳ６００で出力されたテキスト情報から、キーワードに関するフレーズを検出する（ステップＳ６０２）。類似度算出部２０Ｃは、キーワードリスト３２に含まれる複数のキーワードの各々と、ステップＳ６０２で検出されたフレーズと、の類似度に応じた出力類似度を算出する（ステップＳ６０４）。キーワード出力部２０Ｄは、ステップＳ６０４で算出された出力類似度に応じて、キーワードリスト３２におけるキーワードを出力する（ステップＳ６０６）。

変換部２９Ｊは、ステップＳ６００で出力されたテキスト情報に含まれるフレーズを、ステップＳ５０６でキーワード出力部２９Ｄから出力されたキーワードに変換した変換テキスト情報を生成する（ステップＳ６０８）。そして、変換部２９Ｊは、変換テキスト情報を、ディスプレイ等の出力部へ出力する（ステップＳ６１０）。そして、本ルーチンを終了する。

以上説明したように、本実施形態のキーワード検出装置１０Ｆでは、変換部２９Ｊが、テキスト情報に含まれるフレーズを、キーワード出力部２９Ｄから出力されたキーワードに変換した変換テキスト情報を生成する。そして、変換部２９Ｊは、変換テキスト情報を、ディスプレイ等の出力部へ出力する。

このため、本実施形態のキーワード検出装置１０Ｆは、上記実施形態の効果に加えて、正しい認識結果を容易に確認可能に提供することができる。

（変形例）
なお、上記実施形態では、入力情報の入力形態が音声である形態を一例として説明した。しかし、上述したように、入力情報の入力形態は、キーボード等の入力デバイスによって入力されるキー入力、手書きボード等を介して入力される手書き文字入力、等であってもよく、音声に限定されない。

上記実施形態では、入力形態を音声とし、キーワードリスト３２およびキーワードリスト３４には、キーワード表記としてキーワードを表す文字を用い、キーワード形態情報としてキーワードの読みを用いる形態を説明した。そして、類似度算出部２０Ｃおよび類似度算出部２７Ｃは、フレーズの読みとキーワードの読みとの類似度を計算した。

入力情報の入力形態がローマ字キーボードによるキー入力である場合、キーワードリスト３２およびキーワードリスト３４には、キーワード表記としてキーワードを表す文字を用い、キーワード形態情報としてキーワードを表すローマ字を用いた形態とすればよい。そして、類似度算出部２０Ｃおよび類似度算出部２７Ｃは、フレーズを入力されたキーの配列に変換し、キーワードのローマ字とのローマ字配列間の類似度を計算すればよい。

入力情報の入力形態が手書き文字入力である場合、キーワードリスト３２およびキーワードリスト３４には、キーワード表記としてキーワードを表す文字を用い、キーワード形態情報としてキーワードの手書き文字入力時のストローク情報の配列を用いた形態とすればよい。ストローク情報には、一画の線の形状によって表される情報を用いる。そして、キーワードを構成する各文字をストローク情報に分解して書き並べた配列を、キーワード形態情報として予めキーワードリスト３２及びキーワードリスト３４に登録した構成とすればよい。

そして、類似度算出部２０Ｃおよび類似度算出部２７Ｃは、フレーズを構成する各文字をストローク情報に分解して書き並べた配列と、キーワードのストローク情報の配列と、の配列間の類似度を計算すればよい。

（ハードウェア構成）
次に、上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆのハードウェア構成について説明する。

図１６は、上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆのハードウェア構成例を示す図である。

上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆは、ＣＰＵ８０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８４、ＨＤＤ８６、およびＩ／Ｆ部８８等が、バス９０により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ８０は、上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆで実行する情報処理を制御する演算装置である。ＲＡＭ８４は、ＣＰＵ８０による各種処理に必要なデータを記憶する。ＲＯＭ８２は、ＣＰＵ８０による各種処理を実現するプログラム等を記憶する。ＨＤＤ８６は、データを記憶する。Ｉ／Ｆ部８８は、他の装置との間でデータを送受信するためのインターフェースである。

上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆで実行される上記各種処理を実行するためのプログラムは、ＲＯＭ８２等に予め組み込んで提供される。

なお、上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆで実行されるプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

また、上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆにおける上記各処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。

上記実施形態のキーワード検出装置１０～キーワード検出装置１０Ｆで実行される上記各種処理を実行するためのプログラムは、上述した各部が主記憶装置上に生成されるようになっている。

なお、上記ＨＤＤ８６に格納されている各種情報は、外部装置に格納してもよい。この場合には、該外部装置とＣＰＵ８０と、を、ネットワーク等を介して接続した構成とすればよい。

なお、上記には、本開示の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｅ、１０Ｆキーワード検出装置
２０Ａ音声認識部
２０Ｂフレーズ検出部
２０Ｃ、２７Ｃ類似度算出部
２０Ｄ、２１Ｄ、２９Ｄキーワード出力部
２１Ｅキーワードスポッティング部
２１Ｆ、２３Ｆキーワード選択部
２３Ｇアライメント部
２５Ｈ検索部
２７Ｉ応答出力部
２９Ｊ変換部
３２、３４キーワードリスト

Claims

所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出するフレーズ検出部と、
複数の前記キーワードごとに、前記キーワードのキーワード表記と、前記キーワードを前記入力形態で表したキーワード形態情報と、を対応付けたキーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度に応じた出力類似度を算出する類似度算出部と、
前記出力類似度に応じて、前記キーワードリストにおける前記キーワードを出力するキーワード出力部と、
を備えるキーワード検出装置。
前記キーワード出力部は、
前記キーワードリストに含まれる、前記出力類似度の高い順に予め定めた数の前記キーワード、または、前記出力類似度が閾値以上の前記キーワードを出力する、
請求項１に記載のキーワード検出装置。
前記入力情報である音声データの前記認識結果である前記テキスト情報を出力する音声認識部を備える、
請求項１に記載のキーワード検出装置。
前記キーワード形態情報は、前記キーワードの読みを表す情報である、
請求項３に記載のキーワード検出装置。
前記フレーズ検出部は、
前記テキスト情報から、前記フレーズおよび前記フレーズが前記キーワードである確率を検出し、
前記類似度算出部は、
前記キーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度および前記フレーズの前記確率に応じた、前記出力類似度を算出する、
請求項１に記載のキーワード検出装置。
前記フレーズ検出部は、
前記テキスト情報から、前記キーワードに関する複数の前記フレーズを検出し、
前記類似度算出部は、
前記キーワードリストに含まれる複数の前記キーワードの各々と複数の前記フレーズの各々との類似度を前記出力類似度として算出する、
請求項１に記載のキーワード検出装置。
前記類似度算出部は、
前記キーワードリストに含まれる複数の前記キーワードの各々ごとに、前記フレーズとの類似度と、前記フレーズの前記確率と、前記類似度および前記確率の少なくなくとも一方に対する重み付け値と、を用いて、前記出力類似度を算出する、
請求項５に記載のキーワード検出装置。
前記フレーズ検出部は、
前記テキスト情報から、前記キーワードに関する互いに文字数の異なる複数の前記フレーズを検出し、
前記類似度算出部は、
前記キーワードリストに含まれる複数の前記キーワードの各々と複数の前記フレーズの各々との類似度に、前記キーワードの文字数が少ないほど類似度を小さくする重み付け値を付与した、前記出力類似度を算出する、
請求項１に記載のキーワード検出装置。
前記類似度算出部は、
前記フレーズ検出部で検出された前記フレーズと、前記フレーズを前記テキスト情報内で予め定めた文字数分、拡張および縮小の少なくとも一方を行った拡張縮小フレーズと、を含む複数の前記フレーズの各々の前記出力類似度を算出する、
請求項８に記載のキーワード検出装置。
前記テキスト情報から、前記キーワードリストに含まれる前記キーワードを第２キーワードとして抽出するキーワードスポッティング部と、
前記キーワード出力部から出力された前記キーワードである第１キーワード、および、前記第２キーワード、の少なくとも１つ以上を選択するキーワード選択部、
を備える請求項１に記載のキーワード検出装置。
前記入力情報の認識結果である複数のテキスト情報の各々から前記フレーズ検出部によって検出された前記フレーズと、前記キーワードリストに含まれる複数の前記キーワードの各々と、の前記類似度に応じた前記出力類似度に応じて出力された１または複数の前記第１キーワード、および、１または複数の前記第２キーワード、の各々について、前記テキスト情報における対応領域の少なくとも一部が重複する複数の前記キーワードの群を特定するアライメント部を備え、
前記キーワード選択部は、
１または複数の前記第１キーワードおよび１または複数の前記第２キーワードの内、同一の前記群に属する複数の前記キーワードの内の少なくとも１つ以上と、前記群に属さない１または複数の前記キーワードの内の少なくとも１つ以上と、を選択する、
請求項１０に記載のキーワード検出装置。
前記キーワード選択部で選択された複数の前記キーワードの内、前記テキスト情報における対応領域が重複する前記キーワードをＯＲ条件で結合し、前記対応領域が非重複の前記キーワードをＡＮＤ条件で結合した、検索クエリを生成し、
前記検索クエリを用いてデータベースを検索する検索部、
を備える請求項１０に記載のキーワード検出装置。
前記キーワードリストは、
複数の前記キーワードごとに、前記キーワード表記と、前記キーワード形態情報と、前記キーワードの属性と、を対応付けたリストであり、
前記属性を含む応答メッセージを出力する応答出力部を備え、
前記類似度算出部は、
前記応答メッセージが出力された後に入力された前記入力情報の前記認識結果である前記テキスト情報から検出された前記フレーズと、前記キーワードリストにおける前記応答メッセージに含まれる前記属性に対応する前記キーワード形態情報と、の前記類似度に応じた前記出力類似度を算出する、
請求項１に記載のキーワード検出装置。
前記テキスト情報に含まれる前記フレーズを、前記キーワード出力部から出力された前記キーワードに変換した変換テキスト情報を生成する変換部、
を備える、請求項１に記載のキーワード検出装置。
所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出するステップと、
複数の前記キーワードごとに、前記キーワードのキーワード表記と、前記キーワードを前記入力形態で表したキーワード形態情報と、を対応付けたキーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度に応じた出力類似度を算出するステップと、
前記出力類似度に応じて、前記キーワードリストにおける前記キーワードを出力するステップと、
を含むキーワード検出方法。
所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出するステップと、
複数の前記キーワードごとに、前記キーワードのキーワード表記と、前記キーワードを前記入力形態で表したキーワード形態情報と、を対応付けたキーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度に応じた出力類似度を算出するステップと、
前記出力類似度に応じて、前記キーワードリストにおける前記キーワードを出力するステップと、
をコンピュータに実行させるためのキーワード検出プログラム。