JP2024038566A - キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム - Google Patents

キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム Download PDF

Info

Publication number
JP2024038566A
JP2024038566A JP2022142662A JP2022142662A JP2024038566A JP 2024038566 A JP2024038566 A JP 2024038566A JP 2022142662 A JP2022142662 A JP 2022142662A JP 2022142662 A JP2022142662 A JP 2022142662A JP 2024038566 A JP2024038566 A JP 2024038566A
Authority
JP
Japan
Prior art keywords
keyword
similarity
output
keywords
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022142662A
Other languages
English (en)
Inventor
優佳 小林
Yuka Kobayashi
尚水 吉田
Takami Yoshida
憲治 岩田
Kenji Iwata
務嗣 久島
Tsuyoshi Kushima
尚義 永江
Hisayoshi Nagae
奈夕子 渡辺
Nayuko Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2022142662A priority Critical patent/JP2024038566A/ja
Priority to US18/170,713 priority patent/US20240086636A1/en
Priority to CN202310165560.1A priority patent/CN117669553A/zh
Publication of JP2024038566A publication Critical patent/JP2024038566A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】入力情報の認識結果に誤りが含まれる場合であっても、正しいキーワードを出力する。【解決手段】キーワード検出装置10は、フレーズ検出部20Bと、類似度算出部20Cと、キーワード出力部20Dと、を備える。フレーズ検出部20Bは、所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出する。類似度算出部20Cは、複数のキーワードごとに、キーワードのキーワード表記と、キーワードを入力形態で表したキーワード形態情報と、を対応付けたキーワードリスト32に含まれる複数のキーワードの各々とフレーズとの類似度に応じた出力類似度を算出する。キーワード出力部20Dは、出力類似度に応じて、キーワードリスト32におけるキーワードを出力する。【選択図】図1

Description

本発明の実施形態は、キーワード検出装置、キーワード検出方法、およびキーワード検出プログラムに関する。
ユーザの発話等によって入力された入力情報を認識し、入力情報の認識結果から抽出されたキーワードに基づいた処理を実行するシステムが知られている。このようなシステムでは、認識結果に誤りが含まれる場合、キーワードを正しく検出できないという問題点がある。特にキーワードには専門用語や固有名詞等の一般的ではない用語が用いられる場合が多く、誤認識が発生しやすい。
そこで、誤認識を抑制する技術が開示されている。例えば、正解キーワードおよび誤認識キーワードの各々を音素に変換し、音素列同士の類似度を比較し、類似度が高ければ正解キーワードとみなす技術が提案されている。しかしながら、このような従来技術では、キーワード単体で発話されることを前提としており、キーワードを含む自然文等の入力情報が入力された場合、入力情報に含まれるキーワードの箇所を特定することが困難であった。また、正解キーワードの音素列を音声認識結果の音素列中で検索し、キーワード箇所を特定する技術が開示されている。しかしながら、この技術では、音素に誤りがある場合キーワードの箇所を特定することが困難であった。すなわち、従来技術では、認識結果に誤りが含まれる場合、正しいキーワードを出力することは困難であった。
特開2011-128903号公報 特許第5522679号公報
本発明が解決しようとする課題は、入力情報の認識結果に誤りが含まれる場合であっても、正しいキーワードを出力することができる、キーワード検出装置、キーワード検出方法、およびキーワード検出プログラムを提供することである。
実施形態のキーワード検出装置は、フレーズ検出部と、類似度算出部と、キーワード出力部と、を備える。フレーズ検出部は、所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出する。類似度算出部は、複数の前記キーワードごとに、前記キーワードのキーワード表記と、前記キーワードを前記入力形態で表したキーワード形態情報と、を対応付けたキーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度に応じた出力類似度を算出する。キーワード出力部は、前記出力類似度に応じて、前記キーワードリストにおける前記キーワードを出力する。
キーワード検出装置の機能ブロック図。 キーワードリストのデータ構成を示す模式図。 キーワードリストのデータ構成を示す模式図。 キーワード検出装置で実行する情報処理の流れを示すフローチャート。 キーワード検出装置の機能ブロック図。 キーワード検出装置で実行する情報処理の流れを示すフローチャート。 キーワード検出装置の機能ブロック図。 キーワード検出装置で実行する情報処理の流れを示すフローチャート。 キーワード検出装置の機能ブロック図。 キーワード検出装置で実行する情報処理の流れを示すフローチャート。 キーワード検出装置の一例の機能ブロック図。 キーワードリストのデータ構成を示す模式図。 キーワードリストのデータ構成を示す模式図。 キーワード検出装置で実行する情報処理の流れを示すフローチャート。 キーワード検出装置の機能ブロック図。 表示画面の説明図。 表示画面の説明図。 キーワード検出装置で実行する情報処理の流れを示すフローチャート。 ハードウェア構成例を示すブロック図。
以下に添付図面を参照して、キーワード検出装置、キーワード検出方法、およびキーワード検出プログラムを詳細に説明する。
(第1実施形態)
図1は、本実施形態のキーワード検出装置10の一例の機能ブロック図である。
キーワード検出装置10は、入力情報の認識結果であるテキスト情報から認識結果に含まれる正しいキーワードを出力するための情報処理装置である。
入力情報とは、キーワード検出装置10に入力される情報である。入力情報は、所定の入力形態で表される。所定の入力形態とは、入力情報の入力形態である。入力形態は、例えば、マイク等によって集音される音声、キーボード等の入力デバイスによって入力されるキー入力、手書きボード等を介して入力される手書き文字入力、等である。入力形態が音声である場合、入力情報は音声データである。入力形態がキー入力である場合、入力情報はキー入力信号である。入力形態が手書き文字入力である場合、入力情報は手書き文字入力によって表されるストローク信号等である。
本実施形態では、入力形態が音声であり、入力情報が音声データである形態を一例として説明する。また、本実施形態では、音声が、ユーザによって発話された音声である場合を想定して説明する。なお、音声は、ユーザによる発話に限定されない。
キーワード検出装置10は、制御部20と、記憶部30と、備える。制御部20と記憶部30とはデータおよび信号を授受可能に接続されている。
記憶部30は、各種の情報を記憶する。本実施形態では、記憶部30は、キーワードリスト32を予め記憶する。
キーワードリスト32とは、複数のキーワードごとに、キーワードのキーワード表記と、キーワードを入力形態で表したキーワード形態情報と、を対応付けたリストである。
キーワード表記とは、キーワードを表す文字である。キーワード形態情報とは、キーワードを入力情報の入力形態で表した情報である。
入力情報の入力形態が音声である場合、キーワード表記はキーワードを表す文字であり、キーワード形態情報はキーワードの読みを表す情報である。読みは、キーワードの発音を表す。
上述したように、本実施形態では、入力情報の入力形態が音声である形態を一例として説明する。このため、本実施形態では、キーワードリスト32には、キーワードごとに、キーワードのキーワード表記と、キーワード形態情報である読みと、が対応付けて予め登録されている。以下では、キーワード表記を、単に、表記、と称して説明する場合がある。
図2Aは、キーワードリスト32Aのデータ構成の一例を示す模式図である。キーワードリスト32Aは、入力情報である音声が日本語の音声である場合のキーワードリスト32の一例である。キーワードリスト32Aには、3つのキーワードの各々について、表記と読みとが対応付けて登録されている例を示す。なお、キーワードリスト32Aには、2つまたは4つ以上の複数のキーワードが登録されているが、簡略化のために、図2Aにはその一部を示す。
図2Bは、キーワードリスト32Bのデータ構成の一例を示す模式図である。キーワードリスト32Bは、入力情報である音声が英語の音声である場合のキーワードリスト32の一例である。キーワードリスト32Bには、3つのキーワードの各々について、表記と読みとが対応付けて登録されている例を示す。なお、キーワードリスト32Bには、2つまたは4つ以上の複数のキーワードが登録されているが、簡略化のために、図2Bにはその一部を示す。
図1に戻り説明を続ける。制御部20は、キーワード検出装置10において情報処理を実行する。制御部20は、音声認識部20Aと、フレーズ検出部20Bと、類似度算出部20Cと、キーワード出力部20Dと、を備える。
音声認識部20A、フレーズ検出部20B、類似度算出部20C、およびキーワード出力部20Dは、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
なお、記憶部30に記憶されている情報および制御部20に含まれる上記各部の少なくとも一部を、キーワード検出装置10に対して通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。
音声認識部20Aは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する。音声認識部20Aは、公知の方法により音声データを認識し、認識結果であるテキスト情報を出力すればよい。なお、テキスト情報は、読みおよび表記の何れで表されていてもよく、読みと表記とが混在していてもよい。
フレーズ検出部20Bは、所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出する。
フレーズとは、テキスト情報に含まれるキーワードになりえる部分を表す。言い換えると、フレーズとは、テキスト情報に含まれる、キーワードである可能性の高い部分を表す。フレーズは、読みおよび表記の何れで表されていてもよく、読みと表記とが混在していてもよい。
本実施形態では、フレーズ検出部20Bは、音声データの認識結果であるテキスト情報から、1または複数のフレーズを検出する。
ここで、認識結果であるテキスト情報には誤認識が含まれている可能性がある。このため、キーワードそのものを用いてテキスト情報を検索しても、テキスト情報からキーワードを検出することが不可能な場合がある。
そこで、フレーズ検出部20Bは、テキスト情報に含まれるキーワード以外の部分の情報である文脈を用いて、フレーズを検出する。
例えば、フレーズ検出部20Bは、キーワード検出装置10で出力する対象のキーワードが使われる文脈のテンプレートのリストを、予め記憶部30に記憶する。テンプレートは、例えば、「この辺りで___が食べられる店」などである。該テンプレートにおける“___”以外の部分が文脈に相当し、“___”の部分がフレーズの部分である。フレーズ検出部20Bは、テキスト情報中にテンプレートのリストに含まれる何れかのテンプレートに一致する文脈が存在するか否かを判断する。そして、フレーズ検出部20Bは、テンプレートに一致する文脈が存在する場合、該テキスト情報における該文脈の“___”に相当する部分を、フレーズとして検出する。
また、例えば、フレーズ検出部20Bは、キーワード検出装置10で出力する対象のキーワードを含む文章と、該文章におけるキーワードの箇所を表すラベルと、の対からなる学習データを予め大量に用意する。そして、フレーズ検出部20Bは、複数の上記学習データを用いて、該文章を入力とし該ラベルを出力とする機械学習モデルを予め生成する。そして、フレーズ検出部20Bは、認識結果であるテキスト情報を上記機械学習モデルへ入力し、該機械学習モデルからの出力を得ることで、出力されたラベルをフレーズとして検出する。
次に、類似度算出部20Cについて説明する。
類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々と、フレーズ検出部20Bで検出されたフレーズと、の類似度に応じた出力類似度を算出する。
例えば、類似度算出部20Cは、フレーズ検出部20Bで検出されたフレーズと、キーワードリスト32に含まれる複数のキーワードの各々の読みと、の類似度を出力類似度として算出する。
日本語の場合を例に挙げて説明する。例えば、音声認識部20Aに入力された音声の入力情報が「貯湯ユニット給湯温度の設定方法を見せて」であった場合を想定する。そして、音声認識部20Aによる音声データの認識結果であるテキスト情報が「ちょっとユニットキュート温度の設定方法見せて」であった場合を想定する。そして、フレーズ検出部20Bが該テキスト情報から、フレーズ「ちょっとユニットキュート温度」を検出した場合を想定する。
これらの想定の元に、3種類の類似度算出方法を一例として説明する。
まず、類似度算出部20Cによる1種類目の類似度算出方法について説明する。
1種類目の類似度算出方法では、類似度算出部20Cは、フレーズを読みに変換し、キーワードリスト32におけるキーワードの読みとの編集距離を類似度として算出する。
具体的には、類似度算出部20Cは、フレーズ「ちょっとユニットキュート温度」を、該フレーズの読み「ちょっとゆにっときゅーとおんど」に変換する。そして、類似度算出部20Cは、フレーズの読み「ちょっとゆにっときゅーとおんど」と、キーワードリスト32Aに登録されている複数のキーワードの読みの各々と、の編集距離を類似度として算出する。類似度算出部20Cは、例えば、以下式(1)によって類似度を算出する。そして、類似度算出部20Cは、算出した類似度を出力類似度として用いる。
類似度={(キーワードの読みを構成する文字数)-(ペナルティ)}/キーワードの読みを構成する文字数) ・・・式(1)
式(1)中、ペナルティとは、キーワードとフレーズとの異なる文字数を表す。
例えば、フレーズの読み「ちょっとゆにっときゅーとおんど」は15文字からなる。そして、フレーズの読み「ちょっとゆにっときゅーとおんど」と、キーワードリスト32Aにおけるあるキーワードの読み「ちょとうゆにっときゅうとうおんど」とを比較する。すると、フレーズの読み「ちょっと」の部分とキーワードの読み「ちょとう」の部分で2文字、フレーズの読み「きゅうと」の部分とキーワードの読み「きゅうとう」の部分で1文字、合計3文字の文字が異なる。このため、類似度算出部20Cは、異なる文字数であるペナルティを「3」とし、上記式(1)に沿って、(15-3)/15=0.8を、類似度として算出する。
類似度算出部20Cは、音声データが英語であった場合も同様に、フレーズを該フレーズの読みに変換する。そして、類似度算出部20Cは、フレーズの読みと、キーワードリスト32Aに登録されている複数のキーワードの読みの各々と、の編集距離を類似度として算出する。すなわち、類似度算出部20Cは、上記式(1)によって類似度を算出する。そして、類似度算出部20Cは、算出した類似度を出力類似度として用いる。
類似度算出部20Cは、フレーズの読みとキーワードの読みの各々を音素に変換し、文字数に替えて音素数を用いて、上記と同様にして編集距離を類似度として算出してもよい。
具体的には、例えば、読み「あ」を読み「か」に誤認識した場合と、読み「あ」を読み「き」に誤認識した場合とでは、ひらがな単位で考えるとペナルティは「1」である。また、読み「あ」の音素「a」と、読み「か」の音素「ka」とでは、音素単位考えると異なる文字数は「1」である。一方、読み「あ」の音素「a」と、読み「き」の音素「ki」とでは、音素単位で考えるとペナルティは「2」となる。
このため、類似度算出部20Cは、文字数に替えて音素数を用いて編集距離を類似度として算出することで、より高精度に類似度を算出することができる。
次に、類似度算出部20Cによる2種類目の類似度算出方法について説明する。
2種類目の類似度算出方法では、類似度算出部20Cは、編集距離と、文字同士の類似度と、に基づいた類似度を算出する。そして、類似度算出部20Cは、算出した類似度を出力類似度として用いる。
上述した1種類目の類似度算出方法では、類似度算出部20Cは、フレーズとキーワードとの不一致の文字数をペナルティとして用いた。しかし、フレーズとキーワードには、類似文字と非類似の文字が混在して含まれる場合がある。このため、2種類目の類似度算出方法では、類似度算出部20Cは、文字間の類似度に応じたペナルティを与えることで、文字同士の類似度を考慮した類似度を算出する。
類似度算出部20Cは、例えば、音声データの認識結果であるテキスト情報と、正解の書き起こし文と、のペアを大量に予め用意する。そして、類似度算出部20Cは、ペアごとに、文字間の誤認識の割合を予め算出する。
例えば、文字「あ」を正しく認識した数が100回、文字「お」に誤認識した回数が10回、文字「わ」に誤認識した回数が5回であった場合を想定する。この場合、文字「あ」と文字「お」との文字間の類似度は10/(100+10+5)=0.087となる。
そして、類似度算出部20Cは、編集距離による類似度算出時に、フレーズとキーワードとの間で対応する位置の文字が異なる場合には、1-(文字間の類似度)を文字類似度ペナルティとして用いる。
そして、類似度算出部20Cは、以下式(2)により類似度を算出する。類似度算出部20Cは、算出した類似度を出力類似度として用いる。
類似度={(キーワードの読みを構成する文字数)-(ペナルティ×(1-(文字間の類似度))}/キーワードの読みを構成する文字数) ・・・式(2)
式(2)中、ペナルティは、上記式(1)と同様に、フレーズとキーワードとの異なる文字数である。式(2)中、(1-(文字間の類似度))は、該異なる文字の各々の文字類似度ペナルティである。
類似度算出部20Cが編集距離と文字同士の類似度とに基づいた類似度を出力類似度として用いることで、誤認識しやすい文字間による文字類似度ペナルティは少なく、誤認識しにくい文字間の文字類似度ペナルティは大きくなる。このため、類似度算出部20Cは、文字間の類似度を考慮した編集距離を、出力類似度として算出することができる。
次に、類似度算出部20Cによる3種類目の類似度算出方法について説明する。
3種類目の類似度算出方法では、類似度算出部20Cは、音声データの認識結果であるテキスト情報と、正解の書き起こし文と、のペアを大量に予め用意する。そして、類似度算出部20Cは、テキスト情報に含まれるフレーズと、正解の書き起こし文に含まれるフレーズと、の2つのフレーズ間の類似度を算出するモデルを機械学習モデルとして予め学習する。類似度算出部20Cは、音声データの認識結果と正解の書き起こし文とのペアの類似度は高く、他の組み合わせの類似度は低くなるように、機械学習モデルを予め学習する。そして、類似度算出部20Cは、フレーズ検出部20Bが検出したフレーズとキーワードリスト32におけるキーワードの読みとのペアを該機械学習モデルへ入力することで、該機械学習モデルからの出力として、類似度を得る。そして、類似度算出部20Cは、得られた類似度を、出力類似度として用いる。
類似度算出部20Cは、編集距離を用いた場合には1文字同士で比較した類似度を算出する。一方、3種類目の類似度算出方法を用いた場合、類似度算出部20Cは、誤りやすいパターンを数文字単位で学習した機械学習モデルを用いて出力類似度を算出することとなる。このため、3種類目の類似度算出方法を用いることで、類似度算出部20Cは、より詳細な出力類似度を算出することができる。
次に、キーワード出力部20Dについて説明する。キーワード出力部20Dは、類似度算出部20Cで算出された出力類似度に応じて、キーワードリスト32におけるキーワードを出力する。すなわち、キーワード出力部20Dは、出力類似度に応じたキーワードを、テキスト情報に含まれる正しいキーワードとして出力する。
詳細には、キーワード出力部20Dは、キーワードリスト32に含まれる、出力類似度の高い順に予め定めた数のキーワード、または、出力類似度が閾値以上のキーワードを出力する。
例えば、キーワード出力部20Dは、キーワードをキーワード検出装置10に通信可能に接続された外部の情報処理装置へ出力する。また、例えば、キーワード出力部20Dは、キーワード検出装置10に通信可能に接続され、キーワードに基づいた処理を実行するシステムへ、キーワードを出力してもよい。また、キーワード出力部20Dは、キーワードを、制御部20に通信可能に接続されたディスプレイ、スピーカ、等の出力部へ出力してもよい。
このようにキーワード出力部20Dは、出力類似度の高いキーワードをテキスト情報に含まれるキーワードとして出力することができる。
日本語の場合を例に挙げて説明する。例えば、音声認識部20Aに入力された音声の入力情報が「貯湯ユニット給湯温度の設定方法を見せて」であった場合を想定する。そして、音声認識部20Aによる音声データの認識結果であるテキスト情報が「ちょっとユニットキュート温度の設定方法見せて」であった場合を想定する。そして、フレーズ検出部20Bが該テキスト情報から、フレーズ「ちょっとユニットキュート温度」を検出した場合を想定する。
そして、類似度算出部20Cが、フレーズ「ちょっとユニットキュート温度」の読みと、キーワードリスト32Aに登録されているキーワードの読み「ちょとうゆにっときゅうとうおんど」との出力類似度として、出力類似度「0.80」を算出した場合を想定する。また、類似度算出部20Cが、フレーズ「ちょっとユニットキュート温度」の読みと、キーワードリスト32Aに登録されているキーワードの読み「貯湯ユニット」の読みと、の出力類似度として、出力類似度「0.43」を算出した場合を想定する。また、類似度算出部20Cが、フレーズ「ちょっとユニットキュート温度」の読みと、キーワードリスト32Aに登録されているキーワードの読み「せっていほうほう」との出力類似度として、出力類似度「0.00」を算出した場合を想定する。
この場合、キーワード出力部20Dは、例えば、最も出力類似度の高いキーワードの読み「ちょとうゆにっときゅうとうおんど」に対応する表記「貯湯ユニット給湯温度」を、テキスト情報に含まれる正しいキーワードとして出力する。なお、キーワード出力部20Dは、最も出力類似度の高いキーワードの読み、および、該読みに対応する表記、の少なくとも一方を出力すればよい。
英語の場合を例に挙げて説明する。例えば、音声認識部20Aに入力された音声の入力情報が「show me how to set a hot water storage water temperature」であった場合を想定する。そして、音声認識部20Aによる音声データの認識結果であるテキスト情報が「show me how to set a cotton water strange water temperature」であった場合を想定する。そして、フレーズ検出部20Bが該テキスト情報から、フレーズ「cotton water strange water temperature」を検出した場合を想定する。
そして、類似度算出部20Cが、フレーズ「cotton water strange water temperature」の読みと、キーワードリスト32Bに登録されている表記「hot water storage water temperature」のキーワードの読みとの出力類似度として、出力類似度「0.79」を算出した場合を想定する。また、類似度算出部20Cが、フレーズ「cotton water strange water temperature」の読みと、キーワードリスト32Bに登録されている表記「hot water storage」のキーワードの読みとの出力類似度として、出力類似度「0.43」を算出した場合を想定する。また、類似度算出部20Cが、フレーズ「cotton water strange water temperature」の読みと、キーワードリスト32Aに登録されている表記「how to set」のキーワードの読みとの出力類似度として、出力類似度「0.00」を算出した場合を想定する。
この場合、キーワード出力部20Dは、例えば、最も出力類似度の高いキーワードの読みに対応する表記「hot water storage water temperature」および該読みの少なくとも一方を、テキスト情報に含まれる正しいキーワードとして出力する。
なお、フレーズ検出部20Bは、テキスト情報からキーワードに関する複数のフレーズを検出してもよい。この場合、類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々と、検出された複数のフレーズの各々と、の類似度を上記と同様にして算出すればよい。そして、類似度算出部20Cは、複数のフレーズの各々毎に算出した複数のキーワードの各々との類似度を、出力類似度として算出すればよい。
また、フレーズ検出部20Bは、テキスト情報からフレーズおよびフレーズがキーワードである確率を検出してもよい。この場合、類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々とフレーズとの類似度およびフレーズの確率に応じた出力類似度を算出すればよい。例えば、類似度算出部20Cは、類似度と確率との乗算結果を、出力類似度として算出する。
詳細には、フレーズ検出部20Bは、機械学習モデルを用いて、テキスト情報からフレーズを、フレーズがキーワードである確率とともに検出する。そして、類似度算出部20Cは、キーワードリスト32に登録されているキーワードの読みの各々と、フレーズの各々との類似度を算出する。そして、類似度算出部20Cはフレーズの確率と、フレーズとキーワードの読みとの類似度と、の乗算値を、該フレーズの該キーワードに対する出力類似度として算出する。
入力情報が日本語の音声データである場合を想定して説明する。
例えば、入力情報が「貯湯ユニット給湯温度の設定方法を見せて」であり、音声認識部20Aによる音声データの認識結果であるテキスト情報が「ちょっとユニットキュート温度の設定方法を見せて」であった場面を想定する。そして、フレーズ検出部20Bが、フレーズ「ちょっとユニットキュート温度」と確率「0.99」、フレーズ「ユニットキュート温度」と確率「0.95」、および、フレーズ「ちょっとユニット」と確率「0.99」、を検出した場面を想定する。
類似度算出部20Cは、キーワードリスト32Aに登録されているキーワードの読みの各々と、フレーズの各々との類似度を算出する。そして、類似度算出部20Cはフレーズの確率と、フレーズとキーワードの読みとの類似度と、の乗算値を、該フレーズの該キーワードに対する出力類似度として算出する。
また、例えば、入力情報が「山田さんを検索」であり、音声認識部20Aによる音声データの認識結果であるテキスト情報が「山名さんを検索」であった場面を想定する。そして、フレーズ検出部20Bが、フレーズ「山名さん」と確率「0.99」、および、フレーズ「山名」と確率「0.95」、を検出した場面を想定する。
また、キーワードリスト32Aに、表記「山中」読み「やまなか」のキーワードと、表記「山田」読み「やまだ」のキーワードと、が登録されている場面を想定する。
そして、類似度算出部20Cが、フレーズ「山名さん」の読みと、キーワードの読み「やまなか」と、の類似度として「0.60」を算出した場合を想定する。この場合、類似度算出部20Cは、フレーズ「山名さん」の確率「0.99」×類似度「0.60」の値である「0.59」を、該フレーズ「山名さん」とキーワードの読み「やまなか」との出力類似度として算出する。
また、類似度算出部20Cが、フレーズ「山名」の読みと、キーワードの読み「やまだ」と、の類似度として「0.67」を算出した場合を想定する。この場合、類似度算出部20Cは、フレーズ「山名」の確率「0.94」×類似度「0.67」の値である「0.63」を、該フレーズ「山名」とキーワードの読み「やまだ」との出力類似度として算出する。
このように、類似度算出部20Cが、類似度および確率に応じた出力類似度を算出することで、以下の効果が得られる。詳細には、フレーズ検出部20Bで出力された複数のフレーズの少なくとも一部に誤りが含まれる場合であっても、より正しいキーワードに近いフレーズの出力類似度の値を高くすることができる。
なお、類似度算出部20Cは、フレーズの確率と、フレーズとキーワードの読みとの類似度と、の乗算値に替えて、確率と類似度との加算値を出力類似度として算出してもよい。
また、類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々ごとに、フレーズとの類似度と、フレーズがキーワードである確率と、類似度および確率の少なくとも一方に対する重み付け値と、を用いて、出力類似度を算出してもよい。
例えば、類似度より確率を重視する設定が予めなされている場合を想定する。この場合、類似度算出部20Cは、下記式(3)により出力類似度を算出すればよい。
(確率)×(類似度)0.9=出力類似度 ・・・式(3)
このように、類似度算出部20Cは、類似度を小さくする重み付けを行い、出力類似度を算出してもよい。なお、式(3)には、類似度を小さくする重み付け値として「0.9」乗を用いたが、この値に限定されない。
また同様に、類似度算出部20Cは、確率より類似度を重視する重み付け値を用いて、出力類似度を算出してもよい。また、同様に、類似度算出部20Cは、確率および類似度の各々に予め定めた比率の重み値を付与し、出力類似度を算出してもよい。
なお、フレーズ検出部20Bは、テキスト情報から、キーワードに関する互いに文字数の異なる複数のフレーズを検出してよい。また、類似度算出部20Cは、フレーズ検出部20Bで検出されたフレーズと、該フレーズをテキスト情報内で予め定めた文字数分、拡張および縮小の少なくとも一方を行った拡張縮小フレーズと、を、文字数の異なる複数のフレーズとして用いてもよい。
ここで、キーワードリスト32に登録されているキーワードが、他のキーワードを内包したキーワードである場合を想定する。
日本語の場合を例に説明する。例えば、キーワード「日本あいうえおかきくけこ株式会社」およびキーワード「日本」がキーワードリスト32に登録されている場合を想定する。この場合、キーワード「日本」は、キーワード「日本あいうえおかきくけこ株式会社」に内包されている。このような場合、これらのキーワードに関するフレーズを含むテキスト情報から、誤認識されたキーワードと、該キーワードに内包された他の御認識されたキーワードと、が誤検出される場合がある。
英語の場合を例に説明する。例えば、キーワード「hot water storage water temperature」およびキーワード「hot water storage」がキーワードリスト32に登録されている場合を想定する。この場合、キーワード「hot water storage」は、キーワード「hot water storage water temperature」に内包されている。このような場合、これらのキーワードに関するフレーズを含むテキスト情報から、誤認識されたキーワードと、該キーワードに内包された他の御認識されたキーワードと、が誤検出される場合がある。
そこで、類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々と、複数のフレーズの各々との類似度に、キーワードの文字数が少ないほど類似度を小さくする重み付け値を付与した、出力類似度を算出してもよい。すなわち、類似度算出部20Cは、できるだけ長いキーワードがキーワード出力部20Dから出力されるように、キーワードの文字数が少ないほど高いペナルティを与えてもよい。
入力情報である音声が日本語の音声である場合を想定して説明する。
例えば、入力情報が「日本あいうえおかきくけこ株式会社を検索」であり、音声認識部20Aによる音声データの認識結果であるテキスト情報が「日本あいうえおかきくけご株式会社を検索」であった場面を想定する。そして、フレーズ検出部20Bがフレーズとして、フレーズ「日本」と確率「0.99」、および、フレーズ「日本あいうえおかきくけご株式会社」と確率「0.95」を検出した場面を想定する。
また、キーワードリスト32Aに、表記「日本あいうえおかきくけこ株式会社」読み「にほんあいうえおかきくけこかぶしきがいしゃ」のキーワードと、表記「日本」読み「にほん」のキーワードと、が登録されている場面を想定する。
そして、類似度算出部20Cが、フレーズ「日本」の読み「にほん」と、表記「日本」のキーワードの読み「にほん」と、の類似度として「1.0」を算出した場合を想定する。
また、類似度算出部20Cが、フレーズ「日本あいうえおかきくけご株式会社」の読み「にほんあいうえおかきくけごかぶしきかいしゃ」と、表記「日本あいうえおかきくけこ株式会社」のキーワードの読み「にほんあいうえおかきくけこかぶしきがいしゃ」と、の類似度として「0.95」を算出した場合を想定する。
この場合、類似度算出部20Cは、例えば、読み「にほんあいうえおかきくけこかぶしきがいしゃ」のキーワードの文字数が20文字、読み「日本」のキーワードの文字数が3文字であることから、差分である17文字分のペナルティを短いキーワード「日本」に与える。
詳細には、類似度算出部20Cは、フレーズ「日本」の読み「にほん」と、表記「日本」のキーワードの読み「にほん」と、の出力類似度を、以下式(4)により算出する。
出力類似度=類似度×確率×ペナルティ
=1.0×0.99×0.9917
=0.76 式(4)
式(4)中、「0.9917」が17文字分のペナルティに相当する。
また、類似度算出部20Cは、フレーズ「日本あいうえおかきくけご株式会社」の読みと、表記「日本あいうえおかきくけこ株式会社」のキーワードの読みと、の出力類似度を、以下式(5)により算出する。
出力類似度=類似度×確率×ペナルティ
=0.95×0.95
=0.90 式(5)
このように、類似度算出部20Cは、できるだけ長いキーワードがキーワード出力部20Dから出力されるように、キーワードの文字数が少ないほど高いペナルティを与えた出力類似度を算出してもよい。
次に、キーワード検出装置10で実行する情報処理の流れの一例を説明する。
図3は、キーワード検出装置10で実行する情報処理の流れの一例を示すフローチャートである。
音声認識部20Aは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する(ステップS100)。
フレーズ検出部20Bは、ステップS100で出力されたテキスト情報から、キーワードに関するフレーズを検出する(ステップS102)。
類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々と、ステップS102で検出されたフレーズと、の類似度に応じた出力類似度を算出する(ステップS104)。
キーワード出力部20Dは、ステップS104で算出された出力類似度に応じて、キーワードリスト32におけるキーワードを出力する(ステップS106)。そして、本ルーチンを終了する。
以上説明したように、本実施形態のキーワード検出装置10は、フレーズ検出部20Bと、類似度算出部20Cと、キーワード出力部20Dと、を備える。フレーズ検出部20Bは、所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出する。類似度算出部20Cは、複数のキーワードごとに、キーワードのキーワード表記と、キーワードを入力形態で表したキーワード形態情報と、を対応付けたキーワードリスト32に含まれる複数のキーワードの各々とフレーズとの類似度に応じた出力類似度を算出する。キーワード出力部20Dは、出力類似度に応じて、キーワードリスト32におけるキーワードを出力する。
ここで、従来技術では、キーワード単体が入力情報として入力されることを前提としており、キーワードを含む自然文等の入力情報が入力された場合、入力情報に含まれるキーワードの箇所を特定することが困難であった。また、正解キーワードの音素列を音声認識結果の音素列中で検索することでキーワード箇所を特定する従来技術では、音素に誤りがある場合キーワードの箇所を特定することが困難であった。すなわち、従来技術では、認識結果に誤りが含まれる場合、正しいキーワードを出力することは困難であった。
一方、本実施形態のキーワード検出装置10では、フレーズ検出部20Bが入力情報の認識結果であるテキスト情報からキーワードに関するフレーズを検出する。そして、キーワード出力部20Dは、キーワードリスト32に含まれるキーワードとフレーズとの類似度に応じた出力類似度に応じて、キーワードリスト32におけるキーワードを出力する。
このように、本実施形態のキーワード検出装置10では、キーワードに関するフレーズとキーワードとの出力類似度に応じたキーワードを出力する。このため、本実施形態のキーワード検出装置10は、入力情報がキーワードを含む自然文である場合や、入力情報の認識結果であるテキスト情報に誤りが含まれる場合であっても、正しいキーワードを出力することができる。
従って、本実施形態のキーワード検出装置10は、入力情報の認識結果に誤りが含まれる場合であっても、正しいキーワードを出力することができる。
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。
本実施形態では、上記実施形態と同様に、入力形態が音声であり、入力情報が音声データである形態を一例として説明する。
図4は、本実施形態のキーワード検出装置10Bの一例の機能ブロック図である。
キーワード検出装置10Bは、制御部21と、記憶部30と、備える。制御部21と記憶部30とはデータおよび信号を授受可能に接続されている。記憶部30は、上記実施形態と同様である。
制御部21は、キーワード検出装置10Bにおいて情報処理を実行する。制御部21は、音声認識部20Aと、フレーズ検出部20Bと、類似度算出部20Cと、キーワード出力部21Dと、キーワードスポッティング部21Eと、キーワード選択部21Fと、を備える。すなわち、制御部21は、キーワード出力部20Dに替えてキーワード出力部21Dを備え、キーワードスポッティング部21Eおよびキーワード選択部21Fを更に備える点以外は、上記実施形態の制御部20と同様である。
キーワード出力部21Dは、キーワード出力部20Dと同様に、類似度算出部20Cで算出された出力類似度に応じて、キーワードリスト32におけるキーワードを出力する。キーワード出力部21Dは、出力類似度に応じたキーワードリスト32におけるキーワードを、第1キーワードとしてキーワード選択部21Fへ出力する。
キーワードスポッティング部21Eは、テキスト情報から、キーワードリスト32に含まれるキーワードを第2キーワードとして抽出する。すなわち、キーワードスポッティング部21Eは、入力情報の認識結果であるテキスト情報に含まれる、キーワードリスト32に登録されているキーワードに一致するキーワードを、第2キーワードとして抽出する。
日本語の場合を例に挙げて説明する。例えば、音声認識部20Aに入力された音声の入力情報が「貯湯ユニット給湯温度の設定方法を見せて」であった場合を想定する。そして、音声認識部20Aによる音声データの認識結果であるテキスト情報が「貯湯ユニットキュート温度の設定方法見せて」であった場合を想定する。そして、フレーズ検出部20Bが該テキスト情報から、フレーズ「ちょっとユニットキュート温度」を検出した場合を想定する。
この場合、キーワードスポッティング部21Eは、音声データの認識結果であるテキスト情報「貯湯ユニットキュート温度の設定方法見せて」から、キーワードリスト32Aに登録されているキーワードに一致する「貯湯ユニット」および「設定方法」を抽出する。
キーワード選択部21Fは、キーワード出力部21Dから出力されたキーワードである第1キーワード、および、キーワードスポッティング部21Eで抽出された第2キーワード、の少なくとも1つ以上を選択する。そして、キーワード選択部21Fは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力する。
日本語の場合を例に挙げて説明する。例えば、キーワードスポッティング部21Eが、音声データの認識結果であるテキスト情報が「貯湯ユニットキュート温度の設定方法見せて」から、「貯湯ユニット」および「設定方法」を第2キーワードとして抽出した場合を想定する。また、フレーズ検出部20Bが該テキスト情報からフレーズ「貯湯ユニットキュート温度」を検出した場合を想定する。そして、キーワード出力部21Dが類似度算出部20Cによって算出された出力類似度に応じて第1キーワード「貯湯ユニット給湯温度」を出力した場合を想定する。
この場合、キーワード選択部21Fは、キーワード出力部21Dから出力された第1キーワード「貯湯ユニット給湯温度」、キーワードスポッティング部21Eで抽出された第2キーワード「貯湯ユニット」および「設定方法」、の少なくとも1つ以上を選択して出力する。
例えば、キーワード選択部21Fは、「貯湯ユニット給湯温度」と「設定方法」のように、テキスト情報における非重複の箇所の各々からそれぞれ検出されたキーワードについては、双方とも選択する。また、キーワード選択部21Fは、テキスト情報における重複する箇所から検出された複数のキーワードについては、少なくとも1つのキーワードを選択すればよい。例えば、「貯湯ユニット」と「貯湯ユニット給湯温度」はテキスト情報における重複する箇所から検出されている。ユーザが発話した音声は何れか一方であると推測されるため、重複する箇所から検出されたキーワードについては1つに絞ることが好ましい。しかし、後段野処理によっては1つに絞る必要のない場合がある。このため、テキスト情報における重複する箇所から検出された複数のキーワードについては、キーワード選択部21Fは、該複数のキーワードから少なくとも1つのキーワードを選択すればよく、全てのキーワードを選択してもよい。
また、読みが同じであるが表記の異なるキーワードは、音声認識では区別して識別することが困難である。日本語の例の場合、例えば、読み「わたなべ」であり表記「渡辺」であるキーワードと、読み「わたなべ」であり表記「渡邉」であるキーワードとは、音声認識では区別して識別することは困難である。このような場合、キーワード選択部21Fは、1または複数の第1キーワードおよび1または複数の第2キーワードの中から、1つのキーワードのみを選択しなくてもよい。例えば、後段の機能部等で適宜1つのキーワードに絞る処理などを行えばよい。
キーワード選択部21Fは、選択したキーワードを出力する。例えば、キーワード選択部21Fは、選択したキーワードを、キーワード検出装置10Bに通信可能に接続された外部の情報処理装置へ出力する。また、例えば、キーワード選択部21Fは、キーワード検出装置10に通信可能に接続され、キーワードに基づいた処理を実行するシステムへ、キーワードを出力してもよい。また、キーワード選択部21Fは、キーワードを、制御部20に通信可能に接続されたディスプレイ、スピーカ、等の出力部へ出力してもよい。
次に、キーワード検出装置10Bで実行する情報処理の流れの一例を説明する。
図5は、キーワード検出装置10Bで実行する情報処理の流れの一例を示すフローチャートである。
ステップ200~ステップS204の処理は、上記第1実施形態のステップS100~ステップS104の処理と同様である(図3参照)。
詳細には、音声認識部20Aは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する(ステップS200)。フレーズ検出部20Bは、ステップS200で出力されたテキスト情報から、キーワードに関するフレーズを検出する(ステップS202)。類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々と、ステップS202で検出されたフレーズと、の類似度に応じた出力類似度を算出する(ステップS204)。
キーワード出力部21Dは、ステップS204で算出された出力類似度に応じて、キーワードリスト32におけるキーワードを第1キーワードとして出力する(ステップS206)。
キーワードスポッティング部21Eは、ステップS200で出力されたテキスト情報から、キーワードリスト32に含まれるキーワードを第2キーワードとして抽出する(ステップS208)。
キーワード選択部21Fは、ステップS206でキーワード出力部21Dから出力されたキーワードである第1キーワード、および、ステップS208で抽出された第2キーワード、の少なくとも1つ以上を選択する(ステップS210)。そして、キーワード選択部21Fは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力し、本ルーチンを終了する。
以上説明したように、本実施形態のキーワード検出装置10Bでは、キーワードスポッティング部21Eが、テキスト情報から、キーワードリスト32に含まれるキーワードを第2キーワードとして抽出する。キーワード選択部21Fは、キーワード出力部21Dから出力されたキーワードである第1キーワード、および、キーワードスポッティング部21Eで抽出された第2キーワード、の少なくとも1つ以上を選択する。そして、キーワード選択部21Fは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力する。
このため、本実施形態のキーワード検出装置10Bは、上記実施形態の効果に加えて、入力情報から更に正しいキーワードを出力することができる。
(第3実施形態)
次に第3実施形態について説明する。第3実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。
本実施形態では、上記実施形態と同様に、入力形態が音声であり、入力情報が音声データである形態を一例として説明する。
図6は、本実施形態のキーワード検出装置10Cの一例の機能ブロック図である。
キーワード検出装置10Cは、制御部23と、記憶部30と、備える。制御部23と記憶部30とはデータおよび信号を授受可能に接続されている。記憶部30は、上記実施形態と同様である。
制御部23は、キーワード検出装置10Cにおいて情報処理を実行する。制御部23は、音声認識部20Aと、フレーズ検出部20Bと、類似度算出部20Cと、キーワード出力部21Dと、キーワードスポッティング部21Eと、アライメント部23Gと、キーワード選択部23Fと、を備える。すなわち、制御部23は、キーワード選択部21Fに替えてキーワード選択部23Fを備え、アライメント部23Gを更に備える点以外は、上記実施形態の制御部21と同様である。
本実施形態では、音声認識部20Aは、入力情報である音声データを取得し、1つの音声データの認識結果として複数のテキスト情報を出力する。すなわち、本実施形態では、音声認識部20Aは、入力情報である音声データの認識結果として、複数のテキスト情報を出力する。
フレーズ検出部20Bは、複数のテキスト情報の各々から上記実施形態と同様にしてフレーズを検出する。類似度算出部20Cは、上記実施形態と同様に、キーワードリスト32に含まれる複数のキーワードの各々と、フレーズ検出部20Bで検出されたフレーズと、の類似度に応じた出力類似度を算出する。キーワード出力部21Dは、上記実施形態と同様に、類似度算出部20Cで算出された出力類似度に応じて、キーワードリスト32におけるキーワードを出力する。キーワード出力部21Dは、上記実施形態と同様に、出力類似度に応じたキーワードリスト32におけるキーワードを、第1キーワードとして選択する。そして、キーワード出力部21Dは、第1キーワードをアライメント部23Gへ出力する。
キーワードスポッティング部21Eは、複数のテキスト情報の各々から、キーワードリスト32に含まれるキーワードを第2キーワードとして抽出する。
アライメント部23Gは、1または複数の第1キーワードおよび1または複数の第2キーワードの各々について、テキスト情報における対応領域の少なくとも一部が重複する複数のキーワードの群を特定する。テキスト情報における対応領域とは、テキスト情報における位置および範囲を意味する。テキスト情報が音声データの認識結果である場合、対応領域は、テキスト情報における発話開始時間と発話終了期間によって規定される発話期間等によって表される。
日本語の場合を例に挙げて説明する。例えば、音声認識部20Aが、1つの音声データである入力情報から、「超ユニットキュート温度探して」、「ちょっとユニットキュート温度を探して」、および「貯槽ユニット給湯温度を探して」の3つの音声認識結果であるテキスト情報を出力した場合を想定する。
そして、これらのテキスト情報の各々から、キーワード出力部21Dおよびキーワードスポッティング部21Eによって、以下のキーワードが第1キーワードおよび第2キーワードとして出力された場面を想定する。
・テキスト情報:「超ユニットキュート温度探して」
・キーワード出力無し。
・テキスト情報に含まれる単語/対応領域
:超/対応領域(発話開始時刻:2,発話終了時刻:5)
:ユニット/対応領域(発話開始時刻:5,発話終了時刻:12)
:キュート/対応領域(発話開始時刻:12,発話終了時刻:17)
:温度/対応領域(発話開始時刻:17,発話終了時刻:21)
:探して/対応領域(発話開始時刻:21,発話終了時刻:28)
・テキスト情報:「ちょっとユニットキュート温度を探して」
・キーワード/対応領域:「貯湯ユニット給湯温度」/対応領域(発話開始時刻:0,発話終了時刻:21)
・テキスト情報に含まれる単語/対応領域
:ちょっと/対応領域(発話開始時刻:0,発話終了時刻:5)
:ユニット/対応領域(発話開始時刻:5,発話終了時刻:12)
:キュート/対応領域(発話開始時刻:12,発話終了時刻:17)
:温度/対応領域(発話開始時刻:17,発話終了時刻:21)
:を/対応領域(発話開始時刻:21,発話終了時刻:22)
:探して/対応領域(発話開始時刻:22,発話終了時刻:28)
・テキスト情報:「貯槽ユニット給湯温度を探して」
・キーワード/対応領域:「直送ユニット」/対応領域(発話開始時刻:0,発話終了時刻:12)
:貯槽/対応領域(発話開始時刻:0,発話終了時刻:5)
:ユニット/対応領域(発話開始時刻:5,発話終了時刻:12)
:給湯/対応領域(発話開始時刻:12,発話終了時刻:17)
:温度/対応領域(発話開始時刻:17,発話終了時刻:21)
:探して/対応領域(発話開始時刻:21,発話終了時刻:28)
この場合、アライメント部23Gは、複数のテキスト情報の各々について、テキスト情報に含まれる複数の単語の各々のテキスト情報における発話開始時刻および発話終了時刻を特定することで、単語の各々のテキスト情報における対応領域を特定する。そして、アライメント部23Gは、単語の各々の対応領域を用いて、テキスト情報から導出されたキーワードの各々の発話開始時刻および発話終了時刻を求めることで、対応領域を特定する。
アライメント部23Gは、第1キーワードおよび第2キーワードであるキーワードごとに特定した対応領域を用いて、対応領域である発話期間の少なくとも一部が重複するキーワード群を特定する。
キーワード選択部23Fは、キーワード出力部21Dから出力された1または複数の第1キーワード、およびキーワードスポッティング部21Eから出力された1または複数の第2キーワードの内、アライメント部23Gで特定された同一の群に属する複数のキーワードの内の少なくとも1つ以上と、群に属さない1または複数のキーワードの内の少なくとも1つ以上と、を選択する。
例えば、キーワード選択部23Fは、キーワードスポッティング部21Eで抽出された第2キーワードの少なくとも1つ以上と、キーワード出力部21Dから出力され、同じ群に属する複数の第1キーワードの内、出力類似度の高い順に予め定めた数または出力類似度が閾値以上の第1キーワードと、を選択する。
また、例えば、キーワード選択部23Fは、異なるテキスト情報から検出されたキーワードの内、出力類似度の高いキーワードを含むテキスト情報から検出されたキーワードから、キーワードを選択してもよい。
そして、キーワード選択部23Fは、選択したキーワードを出力する。例えば、キーワード選択部23Fは、選択したキーワードを、キーワード検出装置10Cに通信可能に接続された外部の情報処理装置へ出力する。また、例えば、キーワード選択部23Fは、キーワード検出装置10に通信可能に接続され、キーワードに基づいた処理を実行するシステムへ、キーワードを出力してもよい。また、キーワード選択部23Fは、キーワードを、制御部20に通信可能に接続されたディスプレイ、スピーカ、等の出力部へ出力してもよい。
次に、キーワード検出装置10Cで実行する情報処理の流れの一例を説明する。
図7は、キーワード検出装置10Cで実行する情報処理の流れの一例を示すフローチャートである。
ステップ300~ステップS308の処理は、上記第2実施形態のステップS200~ステップS208の処理と同様である(図5参照)。
詳細には、音声認識部20Aは、入力情報である音声データを取得し、音声データの認識結果として、複数のテキスト情報を出力する(ステップS300)。フレーズ検出部20Bは、ステップS300で出力された複数のテキスト情報の各々から、キーワードに関するフレーズを検出する(ステップS302)。類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々と、ステップS302で検出されたフレーズと、の類似度に応じた出力類似度を算出する(ステップS304)。
キーワード出力部21Dは、ステップS304で算出された出力類似度に応じて、キーワードリスト32におけるキーワードを第1キーワードとして出力する(ステップS306)。キーワードスポッティング部21Eは、ステップS300で出力された複数のテキスト情報の各々から、キーワードリスト32に含まれるキーワードを第2キーワードとして抽出する(ステップS308)。
アライメント部23Gは、ステップS306で出力された第1キーワードおよびステップS308で出力された第2キーワードの各々について、テキスト情報における対応領域の少なくとも一部が重複する複数のキーワードの群を特定する(ステップS310)。
キーワード選択部23Fは、キーワード出力部21Dから出力された1または複数の第1キーワード、およびキーワードスポッティング部21Eから出力された1または複数の第2キーワードの内、アライメント部23Gで特定された同一の群に属する複数のキーワードの内の少なくとも1つ以上と、群に属さない1または複数のキーワードの内の少なくとも1つ以上と、を選択する。そして、キーワード選択部23Fは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力し、本ルーチンを終了する。
以上説明したように、本実施形態のキーワード検出装置10Cでは、アライメント部23Gが、第1キーワードおよび第2キーワードの各々について、テキスト情報における対応領域の少なくとも一部が重複する複数のキーワードの群を特定する。キーワード選択部23Fは、キーワード出力部21Dから出力された1または複数の第1キーワード、およびキーワードスポッティング部21Eから出力された1または複数の第2キーワードの内、アライメント部23Gで特定された同一の群に属する複数のキーワードの内の少なくとも1つ以上と、群に属さない1または複数のキーワードの内の少なくとも1つ以上と、を選択する。そして、キーワード選択部23Fは、選択したキーワードを、テキスト情報に含まれる正しいキーワードとして出力する。
このため、本実施形態のキーワード検出装置10Bは、上記実施形態の効果に加えて、入力情報から更に正しいキーワードを出力することができる。
(第4実施形態)
次に第4実施形態について説明する。第4実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。
本実施形態では、上記実施形態と同様に、入力形態が音声であり、入力情報が音声データである形態を一例として説明する。
図8は、本実施形態のキーワード検出装置10Dの一例の機能ブロック図である。
キーワード検出装置10Dは、制御部25と、記憶部30と、備える。制御部25と記憶部30とはデータおよび信号を授受可能に接続されている。記憶部30は、上記実施形態と同様である。
制御部25は、キーワード検出装置10Dにおいて情報処理を実行する。制御部25は、音声認識部20Aと、フレーズ検出部20Bと、類似度算出部20Cと、キーワード出力部21Dと、キーワードスポッティング部21Eと、キーワード選択部21Fと、検索部25Hと、を備える。すなわち、制御部25は、検索部25Hを更に備える点以外は、上記実施形態の制御部21と同様である。
検索部25Hは、キーワード選択部21Fで選択された複数のキーワードの内、テキスト情報における対応領域が重複するキーワードをOR条件で結合し、対応領域が非重複のキーワードをAND条件で結合した、検索クエリを生成する。そして、検索部25Hは、生成した検索クエリを用いてデータベースDBを検索する。
データベースDBは、ネットワークN等を介してキーワード検出装置10に通信可能に接続されている。データベースDBには、一つ以上のコンテンツが格納されている。各コンテンツは、名前、説明文などのテキスト情報を保持している。
データベースDBは、例えば、キーワード検出装置10に通信可能に接続された外部サーバ等に搭載されている。
外部サーバは、例えば、ネットワークN上で扱われる各種のデータを管理する情報処理装置である。外部サーバは、例えば、SNS(Social Networking Service)サーバ、管理サーバ、検索サーバ、などである。SNSサーバは、SNSで扱われるデータを管理するサーバである。管理サーバは、例えば、新聞やラジオなどのマスメディア機関によって管理されるサーバ、ユーザによって作成または発信された各種の情報やユーザに関する情報を管理するサーバ、などである。検索サーバは、例えば、検索機能を提供するウェブサイトなどの検索サイトを管理するサーバである。なお、図8には、1つのデータベースDBを模式的に示した。しかし、キーワード検出装置10Dは、1または複数のデータベースDBに通信可能に接続された構成であればよい。
日本語の場合を例に挙げて説明する。例えば、音声認識部20Aによる音声データの認識結果であるテキスト情報が「開発部Aの川村さん」であった場合を想定する。そして、キーワード選択部21Fが、キーワードとして、「開発部A」「川村」および「河村」を選択した場面を想定する。
キーワード選択部21Fは、複数のキーワードの各々にグループIDを付与する。詳細には、キーワード選択部21Fは、テキスト情報における対応領域が重複する領域から検出されたキーワードに、同じグループIDを付与する。例えば、キーワード選択部21Fが、キーワード「開発部A」にグループID「1」を付与し、キーワード「川村」およびキーワード「河村」にグループID「2」を付与した場合を想定する。
この場合、キーワード選択部21Fは、同じグループIDを付与されたキーワードをOR条件で結合し、異なるグループIDを付与されたキーワードをAND条件で結合することで、検索クエリを生成する。
具体的には、キーワード選択部21Fは、以下の検索クエリを生成する。
検索クエリ:
select * from database where name like “%開発部A%” AND (name like “%川村%” OR name like “%河村%”)
そして、キーワード選択部21Fは、生成した検索クエリを用いることで、キーワード「河村」または「川村」を含み、且つキーワード「開発部A」を含むコンテンツをデータベースDBから検索することが出来る。
なお、音声認識部20Aでは、読みが同じ単語である「河村」と「川村」とを区別して認識することはできない。このため、キーワード選択部21Fは、キーワード出力部21Dおよびキーワードスポッティング部21Eから出力された、テキスト情報における対応領域が重複する領域から検出されたキーワードをOR条件で結合した検索クエリを生成する。検索部25Hは、検索した該当するコンテンツが1つのみである場合には、検索した1つのコンテンツをディスプレイ等の出力部に出力すればよい。また、検索部25Hは、検索した該当するコンテンツが複数である場合には、複数のコンテンツをディスプレイ等の出力部へ出力すればよい。また、検索部25Hは、1つのコンテンツの選択入力を要求するメッセージ等をディスプレイに出力し、1つのコンテンツのユーザによる選択入力を要求してもよい。
次に、キーワード検出装置10Dで実行する情報処理の流れの一例を説明する。
図9は、キーワード検出装置10Dで実行する情報処理の流れの一例を示すフローチャートである。
ステップ400~ステップS410の処理は、上記第2実施形態のステップS200~ステップS210の処理と同様である(図5参照)。
詳細には、音声認識部20Aは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する(ステップS400)。フレーズ検出部20Bは、ステップS400で出力されたテキスト情報から、キーワードに関するフレーズを検出する(ステップS402)。類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々と、ステップS402で検出されたフレーズと、の類似度に応じた出力類似度を算出する(ステップS404)。
キーワード出力部21Dは、ステップS404で算出された出力類似度に応じて、キーワードリスト32におけるキーワードを第1キーワードとして出力する(ステップS406)。キーワードスポッティング部21Eは、ステップS400で出力されたテキスト情報から、キーワードリスト32に含まれるキーワードを第2キーワードとして抽出する(ステップS408)。キーワード選択部21Fは、ステップS406でキーワード出力部21Dから出力されたキーワードである第1キーワード、および、ステップS408で抽出された第2キーワード、の少なくとも1つ以上を選択する(ステップS410)。
検索部25Hは、キーワード選択部21Fで選択された複数のキーワードの内、テキスト情報における対応領域が重複するキーワードをOR条件で結合し、対応領域が非重複のキーワードをAND条件で結合した、検索クエリを生成する。そして、検索部25Hは、生成した検索クエリを用いてデータベースDBを検索する(ステップS412)。そして、本ルーチンを終了する。
以上説明したように、本実施形態のキーワード検出装置10Dは、検索部25Hを更に備える。検索部25Hは、キーワード選択部21Fで選択された複数のキーワードの内、テキスト情報における対応領域が重複するキーワードをOR条件で結合し、対応領域が非重複のキーワードをAND条件で結合した、検索クエリを生成する。そして、検索部25Hは、生成した検索クエリを用いてデータベースDBを検索する。
このため、本実施形態のキーワード検出装置10Dは、上記実施形態の効果に加えて、入力情報から正しいキーワードに関する情報を効率よく検索することができる。
(第5実施形態)
次に第5実施形態について説明する。第5実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。
本実施形態では、上記実施形態と同様に、入力形態が音声であり、入力情報が音声データである形態を一例として説明する。
図10は、本実施形態のキーワード検出装置10Eの一例の機能ブロック図である。
キーワード検出装置10Eは、制御部27と、記憶部30と、備える。制御部27と記憶部30とはデータおよび信号を授受可能に接続されている。記憶部30は、上記実施形態とのキーワードリスト32に替えてキーワードリスト34を予め記憶する。
キーワードリスト34は、複数のキーワードごとに、キーワードのキーワード表記と、キーワードを入力形態で表したキーワード形態情報と、キーワードの属性と、を対応付けたリストである。属性は、キーワードの種類を示す。
図11Aは、キーワードリスト34Aのデータ構成の一例を示す模式図である。キーワードリスト34Aは、入力情報である音声が日本語の音声である場合のキーワードリスト34の一例である。キーワードリスト34Aには、3つのキーワードの各々について、表記と読みと属性とが対応付けて登録されている例を示す。なお、キーワードリスト34Aには、2つまたは4つ以上の複数のキーワードが登録されているが、簡略化のために、図11Aにはその一部を示す。
図11Bは、キーワードリスト34Bのデータ構成の一例を示す模式図である。キーワードリスト34Bは、入力情報である音声が英語の音声である場合のキーワードリスト34の一例である。キーワードリスト34Bには、3つのキーワードの各々について、表記と読みとが対応付けて登録されている例を示す。なお、キーワードリスト34Bには、2つまたは4つ以上の複数のキーワードが登録されているが、簡略化のために、図11Bにはその一部を示す。
図1に戻り説明を続ける。制御部27は、キーワード検出装置10Eにおいて情報処理を実行する。制御部27は、音声認識部20Aと、フレーズ検出部20Bと、類似度算出部27Cと、キーワード出力部21Dと、キーワードスポッティング部21Eと、キーワード選択部21Fと、応答出力部27Iと、を備える。制御部27は、類似度算出部20Cに替えて類似度算出部27Cを備えR、応答出力部27Iを更に備える点以外は、上記実施形態の制御部21と同様である。
応答出力部27Iは、キーワードリスト34に登録されている属性を含む応答メッセージを出力する。応答メッセージは、ユーザによる発話の処理結果に応じて生成され、ユーザに対して次の音声の発話を促すためのメッセージである。例えば、応答出力部27Iは、制御部27に電気的に接続されたスピーカまたはディスプレイ等の出力部に、応答メッセージを出力する。
日本語の例の場合、例えば、応答出力部27Iは、属性「機器」含む応答メッセージ「機器名を教えて下さい」を出力する。属性「機器」を含む応答メッセージの出力後に入力される入力情報には、属性「機器」に対応する単語が含まれることが想定される。この場合、例えば、入力情報には、機器名が含まれる可能性が高い。
そこで、類似度算出部27Cは、応答出力部27Iから応答メッセージが出力された後に入力された入力情報の認識結果であるテキスト情報から検出されたフレーズと、キーワードリスト34における応答メッセージに含まれる属性に対応するキーワード形態情報である読みと、の類似度に応じた出力類似度を算出する。応答出力部27Iから応答メッセージが出力された後に入力された入力情報は、応答メッセージの出力から予め定めた期間内に入力された入力情報であればよい。
詳細には、類似度算出部27Cは、キーワードリスト34における、直前に出力された応答メッセージに含まれる属性に対応するキーワードを特定する。そして、類似度算出部27Cは、特定した1または複数のキーワードの各々と、フレーズ検出部20Bで検出されたフレーズと、の出力類似度を、上記実施形態の類似度算出部20Cと同様にして算出する。
次に、キーワード検出装置10Eで実行する情報処理の流れの一例を説明する。
図12は、キーワード検出装置10Eで実行する情報処理の流れの一例を示すフローチャートである。
応答出力部27Iが、属性を含む応答メッセージを出力する(ステップS500)。
次に、音声認識部20Aが、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する(ステップS502)。フレーズ検出部20Bは、ステップS502で出力されたテキスト情報から、キーワードに関するフレーズを検出する(ステップS504)。
類似度算出部27Cは、キーワードリスト32における、ステップS500で出力された応答メッセージに含まれる属性に対応する1または複数のキーワードの各々と、ステップS504で検出されたフレーズと、の類似度に応じた出力類似度を算出する(ステップS506)。
キーワード出力部21Dは、ステップS506で算出された出力類似度に応じて、キーワードリスト32におけるキーワードを第1キーワードとして出力する(ステップS508)。
キーワードスポッティング部21Eは、ステップS502で出力されたテキスト情報から、キーワードリスト32に含まれるキーワードを第2キーワードとして抽出する(ステップS510)。なお、キーワードスポッティング部21Eは、ステップS502で出力されたテキスト情報から、キーワードリスト32における応答メッセージに含まれる属性に対応するキーワードを、第2キーワードとして抽出してもよい。
キーワード選択部21Fは、ステップS508でキーワード出力部21Dから出力されたキーワードである第1キーワード、および、ステップS510で抽出された第2キーワード、の少なくとも1つ以上を選択する(ステップS512)。そして、本ルーチンを終了する。
以上説明したように、本実施形態のキーワード検出装置10Eは、応答出力部27Iを備える。応答出力部27Iは、キーワードリスト34に登録されている属性を含む応答メッセージを出力する。類似度算出部27Cは、応答出力部27Iから応答メッセージが出力された後に入力された入力情報の認識結果であるテキスト情報から検出されたフレーズと、キーワードリスト34における応答メッセージに含まれる属性に対応するキーワード形態情報と、の類似度に応じた出力類似度を算出する。
このように、本実施形態では、類似度算出部27Cは、応答出力部27Iから応答メッセージが出力された後に入力された入力情報の認識結果であるテキスト情報から検出されたフレーズと、キーワードリスト34における応答メッセージに含まれる属性に対応するキーワード形態情報である読みと、の類似度に応じた出力類似度を算出する。このため、本実施形態のキーワード検出装置10Eでは、応答メッセージに含まれる属性以外の属性に対応するキーワードが出力されることを抑制することができる。
従って、本実施形態のキーワード検出装置10Eは、上記実施形態の効果に加えて、入力情報から正しいキーワードを出力することができる。
(第6実施形態)
次に第6実施形態について説明する。第6実施形態の説明では、上記実施形態と同様の箇所については同じ符号を付与して説明を省略し、上記実施形態と異なる箇所について説明する。
本実施形態では、上記実施形態と同様に、入力形態が音声であり、入力情報が音声データである形態を一例として説明する。
図13は、本実施形態のキーワード検出装置10Fの一例の機能ブロック図である。
キーワード検出装置10Fは、制御部29と、記憶部30と、備える。制御部29と記憶部30とはデータおよび信号を授受可能に接続されている。記憶部30は、上記実施形態と同様である。
制御部29は、キーワード検出装置10Fにおいて情報処理を実行する。制御部29は、音声認識部20Aと、フレーズ検出部20Bと、類似度算出部20Cと、キーワード出力部29Dと、変換部29Jと、を備える。すなわち、制御部29は、キーワード出力部20Dに替えてキーワード出力部29Dを備え、変換部29Jを更に備える点以外は、上記実施形態の制御部20と同様である。
キーワード出力部29Dは、キーワードを変換部29Jに出力する点以外は、上記実施形態のキーワード出力部20Dと同様である。
変換部29Jは、テキスト情報に含まれるフレーズを、キーワード出力部29Dから出力されたキーワードに変換した変換テキスト情報を生成する。そして、変換部29Jは、変換テキスト情報を、ディスプレイ等の出力部へ出力する。
図14Aは、変換部29Jが出力する表示画面50の一例の説明図である。図14Aには、入力情報である音声が日本語の音声である場合の表示画面50の一例を示す。
例えば、キーワード出力部29Dが音声データの認識結果であるテキスト情報を表示した場合、ディスプレイには表示画面50Aが表示される。表示画面50Aには、誤認識を含むテキスト情報である「ちょっとユニットキュート温度の設定方法を見せて」が含まれる。一方、フレーズ検出部20Bによってフレーズ「ちょっとユニットキュート温度」が検出され、キーワード出力部29Dからキーワード「貯湯ユニット給湯温度」が出力された場合を想定する。この場合、変換部29Jは、テキスト情報に含まれるフレーズ「ちょっとユニットキュート温度」を出力されたキーワード「貯湯ユニット給湯温度」に変換した変換テキスト情報を含む表示画面50Bを出力する。
図14Bは、変換部29Jが出力する表示画面50の一例の説明図である。図14Bには、入力情報である音声が英語の音声である場合の表示画面50の一例を示す。
例えば、音声データの認識結果であるテキスト情報を表示した場合、ディスプレイには、表示画面50Aが表示される。表示画面50Cには、誤認識を含むテキスト情報である「show me how to set a cotton water strange water temperature」が含まれる。一方、フレーズ検出部20Bによってフレーズ「cotton water strange water temperature」が検出され、キーワード出力部29Dからキーワード「hot water storage water temperature」が出力された場合を想定する。この場合、変換部29Jは、テキスト情報に含まれるフレーズ「cotton water strange water temperature」を出力されたキーワード「hot water storage water temperature」に変換した変換テキスト情報を含む表示画面50Dを出力する。
このため、ユーザは、表示画面50を視認することで、正しい認識結果を容易に確認することができる。
次に、キーワード検出装置10Fで実行する情報処理の流れの一例を説明する。
図15は、キーワード検出装置10Fで実行する情報処理の流れの一例を示すフローチャートである。
ステップ600~ステップS606の処理は、上記第1実施形態のステップS100~ステップS106の処理と同様である(図3参照)。
詳細には、音声認識部20Aは、入力情報である音声データを取得し、音声データの認識結果であるテキスト情報を出力する(ステップS600)。フレーズ検出部20Bは、ステップS600で出力されたテキスト情報から、キーワードに関するフレーズを検出する(ステップS602)。類似度算出部20Cは、キーワードリスト32に含まれる複数のキーワードの各々と、ステップS602で検出されたフレーズと、の類似度に応じた出力類似度を算出する(ステップS604)。キーワード出力部20Dは、ステップS604で算出された出力類似度に応じて、キーワードリスト32におけるキーワードを出力する(ステップS606)。
変換部29Jは、ステップS600で出力されたテキスト情報に含まれるフレーズを、ステップS506でキーワード出力部29Dから出力されたキーワードに変換した変換テキスト情報を生成する(ステップS608)。そして、変換部29Jは、変換テキスト情報を、ディスプレイ等の出力部へ出力する(ステップS610)。そして、本ルーチンを終了する。
以上説明したように、本実施形態のキーワード検出装置10Fでは、変換部29Jが、テキスト情報に含まれるフレーズを、キーワード出力部29Dから出力されたキーワードに変換した変換テキスト情報を生成する。そして、変換部29Jは、変換テキスト情報を、ディスプレイ等の出力部へ出力する。
このため、本実施形態のキーワード検出装置10Fは、上記実施形態の効果に加えて、正しい認識結果を容易に確認可能に提供することができる。
(変形例)
なお、上記実施形態では、入力情報の入力形態が音声である形態を一例として説明した。しかし、上述したように、入力情報の入力形態は、キーボード等の入力デバイスによって入力されるキー入力、手書きボード等を介して入力される手書き文字入力、等であってもよく、音声に限定されない。
上記実施形態では、入力形態を音声とし、キーワードリスト32およびキーワードリスト34には、キーワード表記としてキーワードを表す文字を用い、キーワード形態情報としてキーワードの読みを用いる形態を説明した。そして、類似度算出部20Cおよび類似度算出部27Cは、フレーズの読みとキーワードの読みとの類似度を計算した。
入力情報の入力形態がローマ字キーボードによるキー入力である場合、キーワードリスト32およびキーワードリスト34には、キーワード表記としてキーワードを表す文字を用い、キーワード形態情報としてキーワードを表すローマ字を用いた形態とすればよい。そして、類似度算出部20Cおよび類似度算出部27Cは、フレーズを入力されたキーの配列に変換し、キーワードのローマ字とのローマ字配列間の類似度を計算すればよい。
入力情報の入力形態が手書き文字入力である場合、キーワードリスト32およびキーワードリスト34には、キーワード表記としてキーワードを表す文字を用い、キーワード形態情報としてキーワードの手書き文字入力時のストローク情報の配列を用いた形態とすればよい。ストローク情報には、一画の線の形状によって表される情報を用いる。そして、キーワードを構成する各文字をストローク情報に分解して書き並べた配列を、キーワード形態情報として予めキーワードリスト32及びキーワードリスト34に登録した構成とすればよい。
そして、類似度算出部20Cおよび類似度算出部27Cは、フレーズを構成する各文字をストローク情報に分解して書き並べた配列と、キーワードのストローク情報の配列と、の配列間の類似度を計算すればよい。
(ハードウェア構成)
次に、上記実施形態のキーワード検出装置10~キーワード検出装置10Fのハードウェア構成について説明する。
図16は、上記実施形態のキーワード検出装置10~キーワード検出装置10Fのハードウェア構成例を示す図である。
上記実施形態のキーワード検出装置10~キーワード検出装置10Fは、CPU80、ROM(Read Only Memory)82、RAM(Random Access Memory)84、HDD86、およびI/F部88等が、バス90により相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。
CPU80は、上記実施形態のキーワード検出装置10~キーワード検出装置10Fで実行する情報処理を制御する演算装置である。RAM84は、CPU80による各種処理に必要なデータを記憶する。ROM82は、CPU80による各種処理を実現するプログラム等を記憶する。HDD86は、データを記憶する。I/F部88は、他の装置との間でデータを送受信するためのインターフェースである。
上記実施形態のキーワード検出装置10~キーワード検出装置10Fで実行される上記各種処理を実行するためのプログラムは、ROM82等に予め組み込んで提供される。
なお、上記実施形態のキーワード検出装置10~キーワード検出装置10Fで実行されるプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。
また、上記実施形態のキーワード検出装置10~キーワード検出装置10Fで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施形態のキーワード検出装置10~キーワード検出装置10Fにおける上記各処理を実行するためのプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。
上記実施形態のキーワード検出装置10~キーワード検出装置10Fで実行される上記各種処理を実行するためのプログラムは、上述した各部が主記憶装置上に生成されるようになっている。
なお、上記HDD86に格納されている各種情報は、外部装置に格納してもよい。この場合には、該外部装置とCPU80と、を、ネットワーク等を介して接続した構成とすればよい。
なお、上記には、本開示の実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10、10B、10C、10D、10E、10F キーワード検出装置
20A 音声認識部
20B フレーズ検出部
20C、27C 類似度算出部
20D、21D、29D キーワード出力部
21E キーワードスポッティング部
21F、23F キーワード選択部
23G アライメント部
25H 検索部
27I 応答出力部
29J 変換部
32、34 キーワードリスト

Claims (16)

  1. 所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出するフレーズ検出部と、
    複数の前記キーワードごとに、前記キーワードのキーワード表記と、前記キーワードを前記入力形態で表したキーワード形態情報と、を対応付けたキーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度に応じた出力類似度を算出する類似度算出部と、
    前記出力類似度に応じて、前記キーワードリストにおける前記キーワードを出力するキーワード出力部と、
    を備えるキーワード検出装置。
  2. 前記キーワード出力部は、
    前記キーワードリストに含まれる、前記出力類似度の高い順に予め定めた数の前記キーワード、または、前記出力類似度が閾値以上の前記キーワードを出力する、
    請求項1に記載のキーワード検出装置。
  3. 前記入力情報である音声データの前記認識結果である前記テキスト情報を出力する音声認識部を備える、
    請求項1に記載のキーワード検出装置。
  4. 前記キーワード形態情報は、前記キーワードの読みを表す情報である、
    請求項3に記載のキーワード検出装置。
  5. 前記フレーズ検出部は、
    前記テキスト情報から、前記フレーズおよび前記フレーズが前記キーワードである確率を検出し、
    前記類似度算出部は、
    前記キーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度および前記フレーズの前記確率に応じた、前記出力類似度を算出する、
    請求項1に記載のキーワード検出装置。
  6. 前記フレーズ検出部は、
    前記テキスト情報から、前記キーワードに関する複数の前記フレーズを検出し、
    前記類似度算出部は、
    前記キーワードリストに含まれる複数の前記キーワードの各々と複数の前記フレーズの各々との類似度を前記出力類似度として算出する、
    請求項1に記載のキーワード検出装置。
  7. 前記類似度算出部は、
    前記キーワードリストに含まれる複数の前記キーワードの各々ごとに、前記フレーズとの類似度と、前記フレーズの前記確率と、前記類似度および前記確率の少なくなくとも一方に対する重み付け値と、を用いて、前記出力類似度を算出する、
    請求項5に記載のキーワード検出装置。
  8. 前記フレーズ検出部は、
    前記テキスト情報から、前記キーワードに関する互いに文字数の異なる複数の前記フレーズを検出し、
    前記類似度算出部は、
    前記キーワードリストに含まれる複数の前記キーワードの各々と複数の前記フレーズの各々との類似度に、前記キーワードの文字数が少ないほど類似度を小さくする重み付け値を付与した、前記出力類似度を算出する、
    請求項1に記載のキーワード検出装置。
  9. 前記類似度算出部は、
    前記フレーズ検出部で検出された前記フレーズと、前記フレーズを前記テキスト情報内で予め定めた文字数分、拡張および縮小の少なくとも一方を行った拡張縮小フレーズと、を含む複数の前記フレーズの各々の前記出力類似度を算出する、
    請求項8に記載のキーワード検出装置。
  10. 前記テキスト情報から、前記キーワードリストに含まれる前記キーワードを第2キーワードとして抽出するキーワードスポッティング部と、
    前記キーワード出力部から出力された前記キーワードである第1キーワード、および、前記第2キーワード、の少なくとも1つ以上を選択するキーワード選択部、
    を備える請求項1に記載のキーワード検出装置。
  11. 前記入力情報の認識結果である複数のテキスト情報の各々から前記フレーズ検出部によって検出された前記フレーズと、前記キーワードリストに含まれる複数の前記キーワードの各々と、の前記類似度に応じた前記出力類似度に応じて出力された1または複数の前記第1キーワード、および、1または複数の前記第2キーワード、の各々について、前記テキスト情報における対応領域の少なくとも一部が重複する複数の前記キーワードの群を特定するアライメント部を備え、
    前記キーワード選択部は、
    1または複数の前記第1キーワードおよび1または複数の前記第2キーワードの内、同一の前記群に属する複数の前記キーワードの内の少なくとも1つ以上と、前記群に属さない1または複数の前記キーワードの内の少なくとも1つ以上と、を選択する、
    請求項10に記載のキーワード検出装置。
  12. 前記キーワード選択部で選択された複数の前記キーワードの内、前記テキスト情報における対応領域が重複する前記キーワードをOR条件で結合し、前記対応領域が非重複の前記キーワードをAND条件で結合した、検索クエリを生成し、
    前記検索クエリを用いてデータベースを検索する検索部、
    を備える請求項10に記載のキーワード検出装置。
  13. 前記キーワードリストは、
    複数の前記キーワードごとに、前記キーワード表記と、前記キーワード形態情報と、前記キーワードの属性と、を対応付けたリストであり、
    前記属性を含む応答メッセージを出力する応答出力部を備え、
    前記類似度算出部は、
    前記応答メッセージが出力された後に入力された前記入力情報の前記認識結果である前記テキスト情報から検出された前記フレーズと、前記キーワードリストにおける前記応答メッセージに含まれる前記属性に対応する前記キーワード形態情報と、の前記類似度に応じた前記出力類似度を算出する、
    請求項1に記載のキーワード検出装置。
  14. 前記テキスト情報に含まれる前記フレーズを、前記キーワード出力部から出力された前記キーワードに変換した変換テキスト情報を生成する変換部、
    を備える、請求項1に記載のキーワード検出装置。
  15. 所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出するステップと、
    複数の前記キーワードごとに、前記キーワードのキーワード表記と、前記キーワードを前記入力形態で表したキーワード形態情報と、を対応付けたキーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度に応じた出力類似度を算出するステップと、
    前記出力類似度に応じて、前記キーワードリストにおける前記キーワードを出力するステップと、
    を含むキーワード検出方法。
  16. 所定の入力形態で表される入力情報の認識結果であるテキスト情報から、キーワードに関するフレーズを検出するステップと、
    複数の前記キーワードごとに、前記キーワードのキーワード表記と、前記キーワードを前記入力形態で表したキーワード形態情報と、を対応付けたキーワードリストに含まれる複数の前記キーワードの各々と前記フレーズとの類似度に応じた出力類似度を算出するステップと、
    前記出力類似度に応じて、前記キーワードリストにおける前記キーワードを出力するステップと、
    をコンピュータに実行させるためのキーワード検出プログラム。
JP2022142662A 2022-09-08 2022-09-08 キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム Pending JP2024038566A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022142662A JP2024038566A (ja) 2022-09-08 2022-09-08 キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム
US18/170,713 US20240086636A1 (en) 2022-09-08 2023-02-17 Keyword detection device, keyword detection method, and computer program product
CN202310165560.1A CN117669553A (zh) 2022-09-08 2023-02-24 关键字检测装置、关键字检测方法以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022142662A JP2024038566A (ja) 2022-09-08 2022-09-08 キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム

Publications (1)

Publication Number Publication Date
JP2024038566A true JP2024038566A (ja) 2024-03-21

Family

ID=90077699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022142662A Pending JP2024038566A (ja) 2022-09-08 2022-09-08 キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム

Country Status (3)

Country Link
US (1) US20240086636A1 (ja)
JP (1) JP2024038566A (ja)
CN (1) CN117669553A (ja)

Also Published As

Publication number Publication date
US20240086636A1 (en) 2024-03-14
CN117669553A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
US11238845B2 (en) Multi-dialect and multilingual speech recognition
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
US10176804B2 (en) Analyzing textual data
CN102725790B (zh) 识别词典制作装置及声音识别装置
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
US9594744B2 (en) Speech transcription including written text
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
JP5799733B2 (ja) 認識装置、認識プログラムおよび認識方法
WO2022105235A1 (zh) 一种信息识别方法、装置及存储介质
CN111199726A (zh) 基于语音成分的细粒度映射的语言语音处理
Springer et al. " Play PRBLMS" Identifying and Correcting Less Accessible Content in Voice Interfaces
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
Raghuvanshi et al. Entity resolution for noisy ASR transcripts
US11694028B2 (en) Data generation apparatus and data generation method that generate recognition text from speech data
JP7034027B2 (ja) 認識装置、認識方法及び認識プログラム
KR102409873B1 (ko) 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템
JP2024038566A (ja) キーワード検出装置、キーワード検出方法、およびキーワード検出プログラム
CN113536776B (zh) 混淆语句的生成方法、终端设备及计算机可读存储介质
JP2011175046A (ja) 音声検索装置および音声検索方法
JP3950957B2 (ja) 言語処理装置および方法
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP4537755B2 (ja) 音声対話システム
JP2014215396A (ja) 発音付与方法とその装置とプログラム
JP2010009329A (ja) 文字列変換を行う情報処理装置、文字列変換方法、プログラム、および情報処理システム