JP2016161935A

JP2016161935A - 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2016161935A
Application number: JP2015186961A
Authority: JP
Inventors: チュルキム，ミン; Min Chul Kim; クンチョ，ヒョン; Hyun Geun Jo
Original assignee: KEUKEY Inc
Current assignee: KEUKEY Inc
Priority date: 2015-02-26
Filing date: 2015-09-24
Publication date: 2016-09-05
Also published as: US10347242B2; KR20160104243A; WO2016137071A1; CN107251137B; CN107251137A; KR102217292B1; US20160253993A1

Abstract

【課題】少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、システムおよびコンピュータ読み取り可能な記録媒体を提供する。
【解決手段】本発明によれば、少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、使用者の発話により改善用音声を受信する段階、前記改善用音声に基づいて改善用意味単位集合を特定する段階、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および前記捕捉された意味単位集合内で前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階を含む方法が提供される。
【選択図】図２

Description

本発明は、少なくとも一つの意味論的単位（以下では、簡略に“意味単位”と称することにする）の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体に関するものである。

［関連出願の相互参照］
本出願は、本発明者の関連発明に関する特許出願である韓国特許出願第１０−２０１４−００４８３１５号および第１０−２０１４−００７７０５６号と相互参照の関係にある。ここで、前記出願の明細書はその全体として編入されたと見なされなければならない。

人の音声を認識してこれをより標準的な意味単位の集合（即ち、意味論的な単位を少なくとも一つ含む集合）に変換するための試みが多数行われたことがある。このような意味単位集合は、特定言語に該当するデジタル音声で出力されるか特定言語のテキストで表記されてもよいものでもある。

しかし、前記のような試みによって獲得される意味単位集合は、品質の側面においてある程度限界があった。例えば、人ごとに無数に多様な発話習慣や一部人物の不明瞭な発音、辞典にない語彙や方言の使用、周辺の雑音混ざった環境などは音声認識技術に依存し意味単位の集合を導出する作業に実質的な困難を賦課するものであった。

したがって、本発明者は少なくとも一つの意味単位の集合を改善用音声（即ち、改善のために別に発話される音声）を用いて改善して、結果的にさらに優れた品質の意味単位集合が獲得されるようにするための新たな技術をここで提示するところである。改善の対象になる意味単位集合が必ずしも音声認識技術によって獲得されたものに限定されなければならないのでもない。

本発明は、前述した従来技術の問題点を全て解決することをその目的とする。

本発明は、少なくとも一つの意味単位の集合を音声を用いて改善することを他の目的とする。

本発明は、音声認識の結果を容易に、そして正確に改善することを他の目的とする。

本発明は、テキスト入力の結果を容易に、そして正確に改善することを他の目的とする。

少なくとも一つの意味単位を含む集合は、それが所定の電子装置（図示せず）を通じて人のアナログ的な音声を認識した結果物としてのデジタル音声やテキストなのか、それとも所定の電子装置（図示せず）を通じて入力された後に（例えば、キーボードやキーパッドによって入力された後に）ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）技術などによって出力されるデジタル音声や同様に入力された後に画面上でディスプレイされるテキストなのかを問わず、以下で説明される本発明により改善用音声によって改善することができる。このような改善の様態として、音声認識結果の修正、入力されてディスプレイされたテキストにおける誤字の修正などが挙げられる。このような観点から前記目的を達成するための本発明の代表的な構成は次の通りである。

本発明の一態様によれば、少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、使用者の発話により改善用音声を受信する段階、前記改善用音声に基づいて改善用意味単位集合を特定する段階、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および前記捕捉された意味単位集合内で前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階を含む方法が提供される。

この他にも、本発明を実現するための他の方法、他の装置および前記方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体がさらに提供される。

本発明によれば、少なくとも一つの意味単位の集合を音声を用いて改善することができるようになる。

本発明によれば、音声認識の結果を容易に、そして正確に改善することができるようになる。

本発明によれば、テキスト入力の結果を容易に、そして正確に改善することができるようになる。

本発明の一実施形態による意味単位改善装置の外観を概略的に示す図である。本発明の一実施形態による意味単位改善装置の内部構成を概念的に示すブロック図である。本発明の実施形態によるマッチング方法に関する例示的なフローチャートである。本発明の実施形態による改善方法に関する例示的なフローチャートである。

後述する本発明に関する詳細な説明は、本発明が実施できる特定実施形態を例示として示す添付図面を参照する。このような実施形態は当業者が本発明を実施するのに十分であるように詳しく説明される。本発明の多様な実施形態は互いに異なるが、相互排他的である必要はないのが理解されなければならない。例えば、本明細書に記載されている特定形状、構造および特性は本発明の精神と範囲を逸脱せずに一実施形態から他の実施形態に変更して実現することができる。また、それぞれの実施形態内の個別構成要素の位置または配置も本発明の精神と範囲を逸脱せずに変更することができるのが理解されなければならない。したがって、後述する詳細な説明は限定的な意味として行われるのではなく、本発明の範囲は特許請求の範囲の請求項が請求する範囲およびそれと均等な全ての範囲を包括するものとして受け入れられなければならない。図面における類似の参照符号は多様な側面にわたって同一または類似の構成要素を示す。

以下、本発明の属する技術分野における通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の様々な好ましい実施形態について添付した図面を参照して詳しく説明する。

［本発明の好ましい実施形態］
装置の構成
図１は本発明の一実施形態による意味単位改善装置の外観を概略的に示す図である。

図１に示されているように、意味単位改善装置１００は、使用者に各種意味単位集合などに関する視覚的な情報をディスプレイするディスプレイ部１１０（例えば、ディスプレイパネル）、意味単位改善装置１００の種類によって使用者が押すか触れると所定の機能が遂行されるようにすることができるボタン部１２０（例えば、スマートフォンのホームボタン）、意味単位改善装置１００で発生される音声や音響を出力することができる音出力部１３０（例えば、スピーカ）、音響センサ（多くの場合、ボタン部１２０の下付近に配置されるマイク）（図示せず）、その他公知の電機電子部品（図示せず）などを含むことができる。図１で、意味単位改善装置１００がスマートフォンであるように示されたが、意味単位改善装置１００がこれに制限されるのではなく、デスクトップコンピュータ、ノートパソコン、ワークステーション、ＰＤＡ、ウェブパッド、移動電話機（スマートフォンではないもの）、各種スマートウエアラブルデバイス（例えば、スマートウォッチ、スマートバンド、スマートガラス、スマートリングなど）などのようにメモリ手段を備えマイクロプロセッサを搭載して演算能力を備えたデジタル機器であればいくらでも本発明による意味単位改善装置１００として採択することができる。

以下では、意味単位改善装置１００の内部構成について図２を参照してさらに詳しく説明する。図２は本発明の一実施形態による意味単位改善装置の内部構成を概念的に示すブロック図である。

図２に示されているように、本発明の一実施形態による意味単位改善装置１００は、音声感知部２１０、音声処理部２２０、意味単位改善部２３０、データベース２５０および制御部２６０を含むことができる。本発明の一実施形態によれば、音声感知部２１０、音声処理部２２０、意味単位改善部２３０、データベース２５０および制御部２６０は、そのうちの少なくとも一部が他のハードウェア構成要素やソフトウェア構成要素を制御するための、または、このような構成要素と通信するためのプログラムモジュールであってもよい。このようなプログラムモジュールは、運営システム、応用プログラムモジュールまたはその他のプログラムモジュールの形態に意味単位改善装置１００に含まれてもよく、物理的には様々な公知の記憶装置に保存されてもよい。また、このようなプログラムモジュールは、意味単位改善装置１００と通信可能な遠隔記憶装置（図示せず）や、さらに外部の電子装置（図示せず）に保存されてもよい。したがって、意味単位改善装置１００の機能の少なくとも一部は当業者の自由な選択により外部電子装置などによって実行されてもよい。一方、このようなプログラムモジュールは、本発明によって後述の特定業務を遂行するか特定抽象データ類型を実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを包括するが、これに制限されない。

まず、本発明の一実施形態による音声感知部２１０は、使用者などによって発話される音声、即ち、改善の対象になる少なくとも一つの意味単位の集合を含むさらに大きい意味単位集合に該当するアナログ音声や、前記のような改善のために使用者によって別途にさらに発話される改善用音声を感知する機能を遂行することができる。

このために、音声感知部２１０は、前述のような音響センサをその一部として含むか、少なくともこのような音響センサと通信することができる。このような音響センサの例には、マイクのような一般的な音響センサはもちろん、振幅の小さい音声信号も感知できる騒音センサと振動センサ、超音波センサなどが含まれてもよい。一般的なマイクの代わりに、水中聴音器（ｈｙｄｒｏｐｈｏｎｅ）、コンデンサーマイク（ｃｏｎｄｅｎｓｅｒｍｉｃｒｏｐｈｏｎｅ）、エレクトレットコンデンサーマイク（ｅｌｅｃｔｒｅｔｃｏｎｄｅｎｓｅｒｍｉｃｒｏｐｈｏｎｅ）、ダイナミックマイク（ｄｙｎａｍｉｃｍｉｃｒｏｐｈｏｎｅ）、リボンマイク（ｒｉｂｂｏｎｍｉｃｒｏｐｈｏｎｅ）、カーボンマイク（ｃａｒｂｏｎｍｉｃｒｏｐｈｏｎｅ）、圧電マイク（ｐｉｅｚｏｅｌｅｃｔｒｉｃｍｉｃｒｏｐｈｏｎｅ）、光繊維マイク（ｏｐｔｉｃａｌｆｉｂｅｒｍｉｃｒｏｐｈｏｎｅ）、レーザマイク（ｌａｓｅｒｍｉｃｒｏｐｈｏｎｅ）、液晶マイク（ｌｉｑｕｉｄｍｉｃｒｏｐｈｏｎｅ）、メムスマイク（ＭＥＭＳｍｉｃｒｏｐｈｏｎｅ）などが採用されてもよい。

音響センサは、意味単位改善装置１００の音声感知部２１０、シャーシ（ｃｈａｓｓｉｓ）、メインボード（図示せず）、ＰＣＢ（ＰｒｉｎｔｅｄＣｉｒｃｕｉｔＢｏａｒｄ）（図示せず）、エンクロージャ（ｅｎｃｌｏｓｕｒｅ）（図示せず）などのうちの少なくともある一部分に配置されてもよい。

そして、音声感知部２１０は、感知された音声のアナログ信号を後述のような音声処理部２２０に伝達することができる。

その次に、本発明の一実施形態による音声処理部２２０は、音声感知部２１０から伝達されたアナログ音声信号をデジタル信号に変換する機能を遂行することができる。

音声処理部２２０は、公知のアナログ−デジタルコンバータを含むことができる。したがって、音声処理部２２０は、標本化（ｓａｍｐｌｉｎｇ）、量子化（ｑｕａｎｔｉｚａｔｉｏｎ）および符号化（ｅｎｃｏｄｉｎｇ）のプロセスのうちの少なくとも一つを遂行することによって、改善の対象になる意味単位集合を含むさらに大きい意味単位集合に該当する音声や改善用音声の信号をアナログ信号からデジタル信号に変換することができる。

また、音声処理部２２０は、必要によって、音声信号を増幅させたり、音声信号から騒音を除去したり、特定周波数帯域の音声信号のみを選別的に受信したり、音声信号の波形を変更したりすることができる。このために、音声処理部２２０は、公知の増幅器、騒音フィルタ、バンドパス／バンドリジェクトフィルタ、カルマン（Ｋａｌｍａｎ）フィルタ、ＥＭＡフィルタ、サビツキー−ゴーレイ（Ｓａｖｉｔｚｋｙ−Ｇｏｌａｙ）フィルタなどを含むことができる。また、音声処理部２２０は、時間ドメインの音声信号を周波数ドメインのものに変換する処理やその逆の処理を行うこともできる。

そして、音声処理部２２０は、処理の結果物であるデジタル音声信号を後述のような意味単位改善部２３０に伝達することができる。

その次に、本発明の一実施形態による意味単位改善部２３０は、音声処理部２２０から伝達されたデジタル音声信号による、改善の対象になる特定意味単位集合を含むさらに大きい意味単位集合を捕捉することができる。これは物理的には該当デジタル音声自体であるか、そのテキストへの変換結果であり得る。後者の場合のために、意味単位改善部２３０は公知の音声認識モジュールを含むか、これと連動できる。以下では、前記のような意味単位集合を“捕捉された意味単位集合”と称することにする。

一方、意味単位改善部２３０は、また、音声処理部２２０から伝達されたデジタル音声信号による改善用音声も特定することができる。以下では、前記のように特定された改善用音声に該当する意味単位集合を“改善用意味単位集合”と称することにする。これも物理的には該当デジタル音声自体であるか、そのテキストへの変換結果であり得る。

また一方、意味単位改善部２３０で扱われる捕捉された意味単位集合は必ずしもデジタル音声信号に由来する必要もない。即ち、例えば、アナログ的またはデジタル的な音声の発生とは関係なく、使用者のキー入力、光学文字読み取りなどによって獲得されたテキストに該当する意味単位集合も前記のような捕捉された意味単位集合になり得る。

そして、意味単位改善部２３０は、捕捉された意味単位集合と改善用意味単位集合を比較して、捕捉された意味単位集合から改善用意味単位集合と高い関連性を示す、実際的な改善の対象になる意味単位集合を抽出することができる。このような抽出を改善の対象になる意味単位集合と改善用意味単位集合の間のマッチングと称することができる。このようなマッチングのために遂行される前記比較はデジタル音声信号間の比較であってもよく、テキスト間の比較であってもよく、デジタル音声信号とテキスト間の比較であってもよい。マッチングされた改善対象意味単位集合は、便宜上、“マッチングされた意味単位集合”と称することにする。これは一つの捕捉された意味単位集合内に一つのみ存在してもよいが、複数個存在してもよい。

一方、意味単位改善部２３０は、マッチングのために使用者の入力（即ち、改善用音声の発話以外の入力）による情報をさらに活用することもできる。例えば、前記関連性検査の結果、複数個の比較的に高い関連性の意味単位集合が抽出されると、使用者がこのうちの少なくとも一部を受動的に選択するようにすることによってマッチングされた意味単位集合を決定することもできる。
本発明によるマッチングについては以下でさらに詳述することにする。

その次に、意味単位改善部２３０は、マッチングされた意味単位集合を改善用意味単位集合に基づいて改善することができる。即ち、マッチングされた意味単位集合は改善用意味単位集合に交替することができる。このような交替は、捕捉された意味単位集合内に存在したマッチングされた意味単位集合を削除し、その代わりに改善用意味単位集合を挿入することであり得る。その結果物は、捕捉された意味単位集合が物理的形式は維持するが、その品質は改善されたものであり得る。このような結果物は物理的にはデジタル音声であるかテキストであり得る。
本発明による意味単位集合の改善については以下でさらに詳述することにする。

その次に、本発明の一実施形態によるデータベース２５０には、捕捉された意味単位集合、改善用意味単位集合、そしてマッチングに関する情報が保存される。たとい図２でデータベース２５０が意味単位改善装置１００に含まれて構成されるものとして示されているが、本発明を実現する当業者の必要によって、データベース２５０は意味単位改善装置１００と別個に構成されてもよい。一方、本発明のデータベース２５０は、コンピュータ読み取り可能な記録媒体を含む概念であって、狭義のデータベースだけでなくファイルシステムに基盤をおいたデータ記録などを含む広義のデータベースであってもよく、単純なログの集合でもこれを検索してデータを抽出することができれば、本発明のデータベース２５０になり得る。

最後に、本発明の一実施形態による制御部２６０は、音声感知部２１０、音声処理部２２０、意味単位改善部２３０およびデータベース２５０間のデータの流れを制御する機能を遂行することができる。即ち、本発明による制御部２６０は、意味単位改善装置１００の各構成要素間のデータの流れを制御することによって、音声感知部２１０、音声処理部２２０、意味単位改善部２３０およびデータベース２５０でそれぞれ固有機能を遂行するように制御することができる。

マッチング
以下では図３を参照して前記に略述したようなマッチングについて詳しく説明する。図３は本発明の実施形態によるマッチング方法に関する例示的なフローチャートである。

まず、意味単位改善部２３０は、改善用意味単位集合を特定する段階（Ｓ１）を遂行することができる。即ち、意味単位改善部２３０は、音声処理部２２０から伝達されたデジタル音声信号のうちの使用者の所定の指示の前または後に（または、直前または直後に）伝達されたデジタル信号の音声を改善用音声として、即ち、改善用意味単位集合として特定することができる（前記のような指示は使用者の予め約束された単語の発話や予め約束されたキーの入力であり得る）。

例えば、使用者が“Ｉｃａｎｃｏｒｒｅｃｔｔｙｐｉｎｇａｔａｌｌｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅｅｒｒｏｒ”のような意味単位集合に該当する音声を発話してから所定の指示を出した場合、“ｅｒｒｏｒ”に該当するデジタル音声やテキストが改善用意味単位集合として特定される。このような特定は、“ｅｒｒｏｒ”に該当する音声部分とその前の音声部分（即ち、“ｂａｃｋｓｐａｃｅ”に該当する音声部分または“ｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”に該当する音声部分）の間の時間間隔が所定の臨界値以上であるという点に基づく。

また、意味単位改善部２３０は、例えば、使用者が“Ｉｃａｎｃｏｒｒｅｃｔｔｙｐｉｎｇａｔａｌｌｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”のようなテキストが画面にディスプレイされたことに対して改善をすることを意図し所定の指示を出しながらその前または後に“ｅｒｒｏｒ”を発話した場合にも、該当するデジタル音声に基づいて改善用意味単位集合を特定することができる。

その次に、意味単位改善部２３０は、特定された改善用意味単位集合に基づいて、捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合を特定する段階（Ｓ２）を遂行することができる。

前記段階の遂行前に、前述のように、実際的な改善の対象になる特定意味単位集合を含むさらに大きい意味単位集合が捕捉されていてもよい。このような捕捉された意味単位集合は、前記に例示されたような、“Ｉｃａｎｃｏｒｒｅｃｔｔｙｐｉｎｇａｔａｌｌｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”のような意味集合であり得る。

意味単位改善部２３０は、捕捉された意味単位集合内の単位間の時間間隔やスペースそして／または改善用意味単位集合の長さ（例えば、該当デジタル音声信号の持続時間、該当音節（または、語節）の数、該当単語の数など）に基づいて、捕捉された意味単位集合を、例えば、“Ｉｃａｎ”、“ｃａｎｃｏｒｒｅｃｔ”、“ｃｏｒｒｅｃｔｔｙｐｉｎｇ”、“ｔｙｐｉｎｇａｔ”、“ａｔａｌｌ”、“ａｌｌｗｉｔｈｏｕｔ”、“ｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”などの部分のように、分けて拡張した後に各部分を改善用意味単位集合と比較してみることができる。

このような比較はデジタル音声間の比較である場合には、時間ドメインや周波数ドメインでのデジタル音声の特徴の比較であり得る。このような音声特徴のうちの典型的に使用されるものはデジタル音声信号の波（ｗａｖｅ）における特徴点であり得る。但し、デジタル音声間の比較のためには多様なアルゴリズムを用いることができるので、考慮対象になるデジタル音声の特徴（特性）は下記のもののうちの一つ以上を自由に含むことができる。

（１）時間ドメインでの音声信号の特性
最大振幅、平均振幅、平均周波数、平均値、標準偏差、全体的な（ｏｖｅｒａｌｌ）振幅によってノーマライジングされた標準偏差、分散（ｖａｒｉａｎｃｅ）、スキューネス（ｓｋｅｗｎｅｓｓ）、クルトシス（Ｋｕｒｔｏｓｉｓ）、和、絶対和、実効値（ＲｏｏｔＭｅａｎＳｑｕａｒｅ；ＲＭＳ）、クレストファクタ、分散（ｄｉｓｐｅｒｓｉｏｎ）、エントロピー（ｅｎｔｒｏｐｙ）、パワーサム（ｐｏｗｅｒｓｕｍ）、質量中心（ｃｅｎｔｅｒｏｆｍａｓｓ）、変動係数（ｃｏｅｆｆｉｃｉｅｎｔｓｏｆｖａｒｉａｔｉｏｎ）、相互相関性（ｃｒｏｓｓｃｏｒｒｅｌａｔｉｏｎ）、ゼロクロッシング（ｚｅｒｏ−ｃｒｏｓｓｉｎｇｓ）、反復性（ｓｅａｓｏｎａｌｉｔｙ）、ＤＣバイアス、または前記音声信号の１次、２次、３次またはそれ以上の次数のデリバティブ（ｄｅｒｉｖａｔｉｖｅ）に対して計算された前記のような特性

（２）周波数ドメインでの音声信号の特性
スペクトルセントロイド（ｓｐｅｃｔｒａｌｃｅｎｔｒｏｉｄ）、スペクトルデンシティ（ｓｐｅｃｔｒａｌｄｅｎｓｉｔｙ）、球面調和関数（ｓｐｈｅｒｉｃａｌｈａｒｍｏｎｉｃｓ）、総平均スペクトルエネルギー（ｔｏｔａｌａｖｅｒａｇｅｓｐｅｃｔｒａｌｅｎｅｒｇｙ）、毎オクターブでの帯域エネルギー比率（ｂａｎｄｅｎｅｒｇｙｒａｔｉｏｆｏｒｅｖｅｒｙｏｃｔａｖｅ）、ログスペクトル帯域比率（ｌｏｇｓｐｅｃｔｒａｌｂａｎｄｒａｔｉｏ）、線形予測基盤のケプストラム係数（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ−ｂａｓｅｄＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ；ＬＰＣＣ）、知覚線形予測（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ；ＰＬＰ）ケプストラム係数、メル−周波数ケプストラム係数、周波数位相、または前記音声信号の周波数ドメイン表現の１次、２次、３次またはそれ以上の次数のデリバティブに対して計算された前記のような特性

一方、前記のような比較はテキスト間の比較であり得る。この場合、テキストはその語節や語素ごとに比較することができる。このような比較のために公知のテキスト比較アルゴリズムを一つ以上採用することができる。例えば、語節ごとの順次的な類似度（例えば、音価やスペリングの類似度）の高い二つのテキストは相互間に高い関連性を有するテキストと規定することができる。

比較の結果、意味単位改善部２３０は、捕捉された意味単位集合内で改善用意味単位集合と高い関連性を示す部分をマッチングされた意味単位集合と決定することができる。前記の例で、これは“ａｔａｌｌ”部分に該当する意味単位集合であり得る。

意味単位集合の改善
以下では図４を参照して前記に略述したような意味単位集合の改善について詳しく説明する。図４は本発明の実施形態による改善方法に関する例示的なフローチャートである。

まず、意味単位改善部２３０は、マッチングされた意味単位集合を改善用意味単位集合に交替する段階（段階Ｔ１）を遂行することができる。この場合、交替の結果物は、捕捉された意味単位集合がマッチングされた意味単位集合の代わりに改善用意味単位集合を含むようになったものであり得る。このような交替の結果物は、改善された音声認識結果であり得、改善されたテキストであり得る。前記の例によれば、改善された音声認識結果乃至テキストは、“Ｉｃａｎｃｏｒｒｅｃｔｔｙｐｉｎｇｅｒｒｏｒｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”であり得る。これは、使用者の元の意図に正確に符合する結果であり得る。

その次に、意味単位改善部２３０は、改善後に代用される捕捉された意味単位集合に該当するデジタル音声を使用者に聞かせるか、それに該当するテキストをディスプレイする段階（段階Ｔ２）を遂行することができる。したがって、前記の例によれば、使用者に聞こえるかディスプレイされるものは“Ｉｃａｎｃｏｒｒｅｃｔｔｙｐｉｎｇｅｒｒｏｒｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”の意味単位集合に該当するデジタル音声やテキストであり得る。

しかし、場合によって、改善用音声は十分な改善を担保できないこともある。これは、使用者に内在された問題（例えば、発音の不正確、放言の使用など）によって改善用音声の品質が最初から十分に高くなくてそれが他の意味単位集合に該当すると誤認識されたり、環境的な問題（例えば、雑音が介入される環境、意味単位改善装置１００の低い仕様など）によって改善用音声の品質がそれほど低くないにもかかわらず、その特定過程でそれが他の意味単位集合に該当すると誤認識されたりするためであり得る。このような場合、使用者に聞こえるかディスプレイされるものは、改善試み後にも、例えば、“Ｉｃａｎｃｏｒｒｅｃｔｔｙｐｉｎｇｅｒｒｏｒｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”の意味集合に該当するデジタル音声やテキストではなく、依然として“Ｉｃａｎｃｏｒｒｅｃｔｔｙｐｉｎｇａｔａｌｌｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”の意味集合に該当するデジタル音声やテキストであるか、“Ｉｃａｎｃｏｒｒｅｃｔｔｙｐｉｎｇｅｒａｗｉｔｈｏｕｔｂａｃｋｓｐａｃｅ”の意味集合に該当するデジタル音声やテキストであり得る。これは、使用者にとって非常に残念な結果であり得る。

したがって、本発明の一実施形態によれば、以下のような付加的な段階がさらに遂行されてもよい。

典型的には段階Ｔ２の遂行後に、代案的には段階Ｔ１の遂行後段階Ｔ２の遂行前または段階Ｔ１の遂行前に、改善用音声と共に所定の付加情報がさらに使用されると、意味単位改善部２３０がこれにも基づいて改善用音声に該当する意味単位集合をさらに精巧に特定できる。以下では、これが可能であるようにする付加情報の様々な例について説明する。

１−１．部分スペリング
例えば、使用者は、前記の例で改善用音声に該当する“ｅｒｒｏｒ”以外に“ｅ”、“ｒ”および“ｒ”を順次にさらに発話することができる。この場合、意味単位改善部２３０は、事前設定（即ち、所定の個数のアルファベット字が連続で発話されてから該当アルファベット字と順次に一致する前部分を有する改善用意味単位集合に該当する改善用音声が発話されると、前記アルファベット字は全て改善用意味単位集合の部分スペリングと見なす設定）やその他のマシンラーニング技法に基づいて、“ｅ”、“ｒ”および“ｒ”が実は改善用意味単位集合をさらに精巧に特定するための部分スペリングに該当するのを把握することができる。これは明らかにも改善用意味単位集合の精巧な特定を担保することであり得る。

１−２．フォネティックコード
例えば、使用者は前記の例で改善用音声に該当する“ｅｒｒｏｒ”以外に“ｅｃｈｏ”、“ｒｏｍｅｏ”および“ｒｏｍｅｏ”を順次にさらに発話することができる。この場合、意味単位改善部２３０は、事前設定（即ち、所定の個数のフォネティックコードが連続で発話されてから該当アルファベットの字と順次に一致する前部分を有する改善用意味単位集合に該当する改善用音声が発話されると、前記アルファベット字は全て改善用意味単位集合の部分スペリングと見なす設定）やその他のマシンラーニング技法に基づいて、“ｅｃｈｏ”、“ｒｏｍｅｏ”および“ｒｏｍｅｏ”が実は改善用意味単位集合をさらに精巧に特定するための部分スペリングに該当するのを把握することができる。

一方、前記のような部分スペリング技法は韓国語においては特定が難しい方である複母音字の解体式発話（例えば、

という改善用意味単位集合のための

および

の順次的な発話）によって実行されてもよく、日本語においては漢字の偏に関する発話（例えば、“嶋田”（しまだ）という改善用意味単位集合がとかく“島田”（しまだ）と誤認されないようにするための“山偏”（やまへん）の追加発話）によって実行されてもよい。

２．ヒント単語
例えば、使用者は前記の例で改善用音声に該当する“ｅｒｒｏｒ”以外に“ｏｆ”および“ｅｒｒｏｎｅｏｕｓ”を順次にさらに発話することができる。この場合、意味単位改善部２３０は、事前設定（即ち、改善用音声が発話される部分で“ｏｆ”が発話されると、その後の音声に該当する単語をヒント単語と見なす設定）やその他のマシンラーニング技法に基づいて、“ｅｒｒｏｎｅｏｕｓ”が実は改善用意味単位集合をさらに精巧に特定するためのヒント単語（即ち、少なくともその一部において正しい改善用意味単位集合の単語と同一または類似のスペリングを有する単語）に該当するのを把握することができる。これは、明らかにも改善用意味単位集合の精巧な特定を担保することであり得る。ここで、予約語に該当すると見ることができる“ｏｆ”は“ｌｉｋｅ”などのように使用者が理解しやすく誤認識率の低い他の単語に代替されてもよい。

一方、前記の例以外にも、使用者が改善用音声として“Ｚｏｅ”を発話したが、それが“Ｊｏｅ”と認識され誤った改善が行われた場合、使用者は“Ｚｏｅ”をもう一度発話しながら、“Ｚ”、“ｏｆ”および“Ｚｅｂｒａ”のように正しい改善用意味単位集合に含まれなければならないアルファベットを強調するためのヒント単語を予約語および該当アルファベットと共にさらに発話することができる。これにより、意味単位改善部２３０は、改善用意味単位集合を前記ヒント単語の前記アルファベットを含むように、即ち、“Ｚｏｅ”になるように訂正することができる。

韓国語の場合にも、

が

と誤認識された場合、使用者がもう一度

を発話しながら

をさらに発話すると、意味単位改善部２３０がこれにより改善用意味単位集合をヒント単語

の字

を含むように、即ち、

になるように訂正することができる。

日本語の場合にも、“感じ”（かんじ）が“漢字”（かんじ）と誤認識されたのを訂正するために、“感動の感”（かんどうのかん）が追加発話されるようにしたり、“買いに”（かいに）が“海に”（かいに）と誤認識されたのを訂正するために、“買い物の買い”（かいもののかい）が追加発話されるようにすることができる。

一方、言語と関係なく、正しい改善用意味単位集合と意味が類似した単語が追加発話されるようにしたり（例えば、“ｅｒｒｏｒ”が改善用意味単位集合になるようにするために予約語の“ｌｉｋｅ”と共に類義語の“ｍｉｓｔａｋｅ”が追加発話されるようにしたり）、上下位関係にある単語が追加発話されるようにしたり（例えば、“Ｋｉａ”が改善用意味単位集合になるようにするために、予約語の“ｌｉｋｅ”と共に関係語の“ｃａｒｃｏｍｐａｎｙ”が追加発話されるようにしたり）、連想語が追加発話されるようにすることもできる（例えば、

が改善用意味単位集合になるようにするために予約語の“ｌｉｋｅ”と共に連想語の

が追加発話されるようにしたり、“ｑｕｅｒｉｅｓ”が改善用意味単位集合になるようにするために予約語の“ｆｏｒ”と共に連想語の“ｄａｔａｂａｓｅ”が追加発話されるようにしたりすることができる）。

即ち、意味単位改善部２３０は、使用者が改善用音声の付近で予約語と共にヒント単語（または、ヒント字）をさらに発話すると、これを解釈して改善用音声に該当する改善用意味単位集合がより一層精巧に特定されるようにすることができる。

以上に説明された本発明による実施形態は、多様なコンピュータ構成要素を通じて実行されるプログラム命令語の形態に実現されコンピュータ読み取り可能な記録媒体に記録される。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され構成されたものであるか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスク（登録商標）および磁気テープのような磁気媒体、ＣＤ−ＲＯＭおよびＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉｕｍ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのような、プログラム命令語を保存し実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを使用してコンピュータによって実行される高級言語コードも含まれる。ハードウェア装置は、本発明による処理を遂行するために一つ以上のソフトウェアモジュールに変更されてもよく、その逆も同様である。

以上で本発明が、具体的な構成要素などのような特定事項と限定された実施形態および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明が前記実施形態に限定されるのではなく、本発明の属する技術分野における通常の知識を有する者であればこのような記載から多様な修正と変更を図ることができる。
したがって、本発明の思想は前述の実施形態に限定されて決められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なまたはこれから等価的に変更された全ての範囲は本発明の思想の範疇に属するというべきである。

２１０音声感知部
２２０音声処理部
２３０マッチング部
２４０意味単位改善部
２５０データベース
２６０制御部

Claims

少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、
使用者の発話により改善用音声を受信する段階、
前記改善用音声に基づいて改善用意味単位集合を特定する段階、
前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および
前記捕捉された意味単位集合内で前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階
を含む方法。
前記改善用意味単位集合は、付加情報にさらに基づいて特定されたものである、請求項１に記載の方法。
前記付加情報は、前記使用者の発話によるものである、請求項２に記載の方法。
前記付加情報は、正しい改善用意味単位集合のための部分スペリング情報である、請求項２に記載の方法。
前記部分スペリング情報は、正しい改善用意味単位集合の一部分と順次に一致する所定の個数の字に関する情報である、請求項４に記載の方法。
前記部分スペリング情報は、正しい改善用意味単位集合の一部分と順次に一致する所定の個数のフォネティックコードに関する情報である、請求項４に記載の方法。
前記付加情報は、正しい改善用意味単位集合に関するヒント単語やヒント字に関する情報を含む、請求項２に記載の方法。
前記ヒント単語は、少なくともその一部において正しい改善用意味単位集合の単語と同一または類似のスペリングを有する単語、正しい改善用意味単位集合に含まれなければならない字を強調するための単語、正しい改善用意味単位集合の単語と類義語関係にある単語、正しい改善用意味単位集合の単語と上下位関係を有する単語および正しい改善用意味単位集合の単語と連想語関係にある単語のうちの少なくとも一つに該当する、請求項７に記載の方法。
前記付加情報は、予約語をさらに含む、請求項７に記載の方法。
少なくとも一つの意味単位を含む集合を改善するための装置であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、
使用者の発話により改善用音声を受信する音声感知部、および
前記改善用音声に基づいて改善用意味単位集合を特定し、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定し、前記捕捉された意味単位集合内で前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する意味単位改善部
を含む装置。
請求項１乃至９のうちのいずれか一項による方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体。