JP2016161935A - 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 - Google Patents

少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2016161935A
JP2016161935A JP2015186961A JP2015186961A JP2016161935A JP 2016161935 A JP2016161935 A JP 2016161935A JP 2015186961 A JP2015186961 A JP 2015186961A JP 2015186961 A JP2015186961 A JP 2015186961A JP 2016161935 A JP2016161935 A JP 2016161935A
Authority
JP
Japan
Prior art keywords
semantic unit
improvement
unit set
semantic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015186961A
Other languages
English (en)
Inventor
チュル キム,ミン
Min Chul Kim
チュル キム,ミン
クン チョ,ヒョン
Hyun Geun Jo
クン チョ,ヒョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KEUKEY Inc
Original Assignee
KEUKEY Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KEUKEY Inc filed Critical KEUKEY Inc
Publication of JP2016161935A publication Critical patent/JP2016161935A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

【課題】少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、システムおよびコンピュータ読み取り可能な記録媒体を提供する。
【解決手段】本発明によれば、少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、使用者の発話により改善用音声を受信する段階、前記改善用音声に基づいて改善用意味単位集合を特定する段階、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および前記捕捉された意味単位集合内で前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階を含む方法が提供される。
【選択図】図2

Description

本発明は、少なくとも一つの意味論的単位(以下では、簡略に“意味単位”と称することにする)の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体に関するものである。
[関連出願の相互参照]
本出願は、本発明者の関連発明に関する特許出願である韓国特許出願第10−2014−0048315号および第10−2014−0077056号と相互参照の関係にある。ここで、前記出願の明細書はその全体として編入されたと見なされなければならない。
人の音声を認識してこれをより標準的な意味単位の集合(即ち、意味論的な単位を少なくとも一つ含む集合)に変換するための試みが多数行われたことがある。このような意味単位集合は、特定言語に該当するデジタル音声で出力されるか特定言語のテキストで表記されてもよいものでもある。
しかし、前記のような試みによって獲得される意味単位集合は、品質の側面においてある程度限界があった。例えば、人ごとに無数に多様な発話習慣や一部人物の不明瞭な発音、辞典にない語彙や方言の使用、周辺の雑音混ざった環境などは音声認識技術に依存し意味単位の集合を導出する作業に実質的な困難を賦課するものであった。
したがって、本発明者は少なくとも一つの意味単位の集合を改善用音声(即ち、改善のために別に発話される音声)を用いて改善して、結果的にさらに優れた品質の意味単位集合が獲得されるようにするための新たな技術をここで提示するところである。改善の対象になる意味単位集合が必ずしも音声認識技術によって獲得されたものに限定されなければならないのでもない。
本発明は、前述した従来技術の問題点を全て解決することをその目的とする。
本発明は、少なくとも一つの意味単位の集合を音声を用いて改善することを他の目的とする。
本発明は、音声認識の結果を容易に、そして正確に改善することを他の目的とする。
本発明は、テキスト入力の結果を容易に、そして正確に改善することを他の目的とする。
少なくとも一つの意味単位を含む集合は、それが所定の電子装置(図示せず)を通じて人のアナログ的な音声を認識した結果物としてのデジタル音声やテキストなのか、それとも所定の電子装置(図示せず)を通じて入力された後に(例えば、キーボードやキーパッドによって入力された後に)TTS(Text To Speech)技術などによって出力されるデジタル音声や同様に入力された後に画面上でディスプレイされるテキストなのかを問わず、以下で説明される本発明により改善用音声によって改善することができる。このような改善の様態として、音声認識結果の修正、入力されてディスプレイされたテキストにおける誤字の修正などが挙げられる。このような観点から前記目的を達成するための本発明の代表的な構成は次の通りである。
本発明の一態様によれば、少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、使用者の発話により改善用音声を受信する段階、前記改善用音声に基づいて改善用意味単位集合を特定する段階、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および前記捕捉された意味単位集合内で前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階を含む方法が提供される。
この他にも、本発明を実現するための他の方法、他の装置および前記方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体がさらに提供される。
本発明によれば、少なくとも一つの意味単位の集合を音声を用いて改善することができるようになる。
本発明によれば、音声認識の結果を容易に、そして正確に改善することができるようになる。
本発明によれば、テキスト入力の結果を容易に、そして正確に改善することができるようになる。
本発明の一実施形態による意味単位改善装置の外観を概略的に示す図である。 本発明の一実施形態による意味単位改善装置の内部構成を概念的に示すブロック図である。 本発明の実施形態によるマッチング方法に関する例示的なフローチャートである。 本発明の実施形態による改善方法に関する例示的なフローチャートである。
後述する本発明に関する詳細な説明は、本発明が実施できる特定実施形態を例示として示す添付図面を参照する。このような実施形態は当業者が本発明を実施するのに十分であるように詳しく説明される。本発明の多様な実施形態は互いに異なるが、相互排他的である必要はないのが理解されなければならない。例えば、本明細書に記載されている特定形状、構造および特性は本発明の精神と範囲を逸脱せずに一実施形態から他の実施形態に変更して実現することができる。また、それぞれの実施形態内の個別構成要素の位置または配置も本発明の精神と範囲を逸脱せずに変更することができるのが理解されなければならない。したがって、後述する詳細な説明は限定的な意味として行われるのではなく、本発明の範囲は特許請求の範囲の請求項が請求する範囲およびそれと均等な全ての範囲を包括するものとして受け入れられなければならない。図面における類似の参照符号は多様な側面にわたって同一または類似の構成要素を示す。
以下、本発明の属する技術分野における通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の様々な好ましい実施形態について添付した図面を参照して詳しく説明する。
[本発明の好ましい実施形態]
装置の構成
図1は本発明の一実施形態による意味単位改善装置の外観を概略的に示す図である。
図1に示されているように、意味単位改善装置100は、使用者に各種意味単位集合などに関する視覚的な情報をディスプレイするディスプレイ部110(例えば、ディスプレイパネル)、意味単位改善装置100の種類によって使用者が押すか触れると所定の機能が遂行されるようにすることができるボタン部120(例えば、スマートフォンのホームボタン)、意味単位改善装置100で発生される音声や音響を出力することができる音出力部130(例えば、スピーカ)、音響センサ(多くの場合、ボタン部120の下付近に配置されるマイク)(図示せず)、その他公知の電機電子部品(図示せず)などを含むことができる。図1で、意味単位改善装置100がスマートフォンであるように示されたが、意味単位改善装置100がこれに制限されるのではなく、デスクトップコンピュータ、ノートパソコン、ワークステーション、PDA、ウェブパッド、移動電話機(スマートフォンではないもの)、各種スマートウエアラブルデバイス(例えば、スマートウォッチ、スマートバンド、スマートガラス、スマートリングなど)などのようにメモリ手段を備えマイクロプロセッサを搭載して演算能力を備えたデジタル機器であればいくらでも本発明による意味単位改善装置100として採択することができる。
以下では、意味単位改善装置100の内部構成について図2を参照してさらに詳しく説明する。図2は本発明の一実施形態による意味単位改善装置の内部構成を概念的に示すブロック図である。
図2に示されているように、本発明の一実施形態による意味単位改善装置100は、音声感知部210、音声処理部220、意味単位改善部230、データベース250および制御部260を含むことができる。本発明の一実施形態によれば、音声感知部210、音声処理部220、意味単位改善部230、データベース250および制御部260は、そのうちの少なくとも一部が他のハードウェア構成要素やソフトウェア構成要素を制御するための、または、このような構成要素と通信するためのプログラムモジュールであってもよい。このようなプログラムモジュールは、運営システム、応用プログラムモジュールまたはその他のプログラムモジュールの形態に意味単位改善装置100に含まれてもよく、物理的には様々な公知の記憶装置に保存されてもよい。また、このようなプログラムモジュールは、意味単位改善装置100と通信可能な遠隔記憶装置(図示せず)や、さらに外部の電子装置(図示せず)に保存されてもよい。したがって、意味単位改善装置100の機能の少なくとも一部は当業者の自由な選択により外部電子装置などによって実行されてもよい。一方、このようなプログラムモジュールは、本発明によって後述の特定業務を遂行するか特定抽象データ類型を実行するルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを包括するが、これに制限されない。
まず、本発明の一実施形態による音声感知部210は、使用者などによって発話される音声、即ち、改善の対象になる少なくとも一つの意味単位の集合を含むさらに大きい意味単位集合に該当するアナログ音声や、前記のような改善のために使用者によって別途にさらに発話される改善用音声を感知する機能を遂行することができる。
このために、音声感知部210は、前述のような音響センサをその一部として含むか、少なくともこのような音響センサと通信することができる。このような音響センサの例には、マイクのような一般的な音響センサはもちろん、振幅の小さい音声信号も感知できる騒音センサと振動センサ、超音波センサなどが含まれてもよい。一般的なマイクの代わりに、水中聴音器(hydrophone)、コンデンサーマイク(condenser microphone)、エレクトレットコンデンサーマイク(electret condenser microphone)、ダイナミックマイク(dynamic microphone)、リボンマイク(ribbon microphone)、カーボンマイク(carbon microphone)、圧電マイク(piezoelectric microphone)、光繊維マイク(optical fiber microphone)、レーザマイク(laser microphone)、液晶マイク(liquid microphone)、メムスマイク(MEMS microphone)などが採用されてもよい。
音響センサは、意味単位改善装置100の音声感知部210、シャーシ(chassis)、メインボード(図示せず)、PCB(Printed Circuit Board)(図示せず)、エンクロージャ(enclosure)(図示せず)などのうちの少なくともある一部分に配置されてもよい。
そして、音声感知部210は、感知された音声のアナログ信号を後述のような音声処理部220に伝達することができる。
その次に、本発明の一実施形態による音声処理部220は、音声感知部210から伝達されたアナログ音声信号をデジタル信号に変換する機能を遂行することができる。
音声処理部220は、公知のアナログ−デジタルコンバータを含むことができる。したがって、音声処理部220は、標本化(sampling)、量子化(quantization)および符号化(encoding)のプロセスのうちの少なくとも一つを遂行することによって、改善の対象になる意味単位集合を含むさらに大きい意味単位集合に該当する音声や改善用音声の信号をアナログ信号からデジタル信号に変換することができる。
また、音声処理部220は、必要によって、音声信号を増幅させたり、音声信号から騒音を除去したり、特定周波数帯域の音声信号のみを選別的に受信したり、音声信号の波形を変更したりすることができる。このために、音声処理部220は、公知の増幅器、騒音フィルタ、バンドパス/バンドリジェクトフィルタ、カルマン(Kalman)フィルタ、EMAフィルタ、サビツキー−ゴーレイ(Savitzky−Golay)フィルタなどを含むことができる。また、音声処理部220は、時間ドメインの音声信号を周波数ドメインのものに変換する処理やその逆の処理を行うこともできる。
そして、音声処理部220は、処理の結果物であるデジタル音声信号を後述のような意味単位改善部230に伝達することができる。
その次に、本発明の一実施形態による意味単位改善部230は、音声処理部220から伝達されたデジタル音声信号による、改善の対象になる特定意味単位集合を含むさらに大きい意味単位集合を捕捉することができる。これは物理的には該当デジタル音声自体であるか、そのテキストへの変換結果であり得る。後者の場合のために、意味単位改善部230は公知の音声認識モジュールを含むか、これと連動できる。以下では、前記のような意味単位集合を“捕捉された意味単位集合”と称することにする。
一方、意味単位改善部230は、また、音声処理部220から伝達されたデジタル音声信号による改善用音声も特定することができる。以下では、前記のように特定された改善用音声に該当する意味単位集合を“改善用意味単位集合”と称することにする。これも物理的には該当デジタル音声自体であるか、そのテキストへの変換結果であり得る。
また一方、意味単位改善部230で扱われる捕捉された意味単位集合は必ずしもデジタル音声信号に由来する必要もない。即ち、例えば、アナログ的またはデジタル的な音声の発生とは関係なく、使用者のキー入力、光学文字読み取りなどによって獲得されたテキストに該当する意味単位集合も前記のような捕捉された意味単位集合になり得る。
そして、意味単位改善部230は、捕捉された意味単位集合と改善用意味単位集合を比較して、捕捉された意味単位集合から改善用意味単位集合と高い関連性を示す、実際的な改善の対象になる意味単位集合を抽出することができる。このような抽出を改善の対象になる意味単位集合と改善用意味単位集合の間のマッチングと称することができる。このようなマッチングのために遂行される前記比較はデジタル音声信号間の比較であってもよく、テキスト間の比較であってもよく、デジタル音声信号とテキスト間の比較であってもよい。マッチングされた改善対象意味単位集合は、便宜上、“マッチングされた意味単位集合”と称することにする。これは一つの捕捉された意味単位集合内に一つのみ存在してもよいが、複数個存在してもよい。
一方、意味単位改善部230は、マッチングのために使用者の入力(即ち、改善用音声の発話以外の入力)による情報をさらに活用することもできる。例えば、前記関連性検査の結果、複数個の比較的に高い関連性の意味単位集合が抽出されると、使用者がこのうちの少なくとも一部を受動的に選択するようにすることによってマッチングされた意味単位集合を決定することもできる。
本発明によるマッチングについては以下でさらに詳述することにする。
その次に、意味単位改善部230は、マッチングされた意味単位集合を改善用意味単位集合に基づいて改善することができる。即ち、マッチングされた意味単位集合は改善用意味単位集合に交替することができる。このような交替は、捕捉された意味単位集合内に存在したマッチングされた意味単位集合を削除し、その代わりに改善用意味単位集合を挿入することであり得る。その結果物は、捕捉された意味単位集合が物理的形式は維持するが、その品質は改善されたものであり得る。このような結果物は物理的にはデジタル音声であるかテキストであり得る。
本発明による意味単位集合の改善については以下でさらに詳述することにする。
その次に、本発明の一実施形態によるデータベース250には、捕捉された意味単位集合、改善用意味単位集合、そしてマッチングに関する情報が保存される。たとい図2でデータベース250が意味単位改善装置100に含まれて構成されるものとして示されているが、本発明を実現する当業者の必要によって、データベース250は意味単位改善装置100と別個に構成されてもよい。一方、本発明のデータベース250は、コンピュータ読み取り可能な記録媒体を含む概念であって、狭義のデータベースだけでなくファイルシステムに基盤をおいたデータ記録などを含む広義のデータベースであってもよく、単純なログの集合でもこれを検索してデータを抽出することができれば、本発明のデータベース250になり得る。
最後に、本発明の一実施形態による制御部260は、音声感知部210、音声処理部220、意味単位改善部230およびデータベース250間のデータの流れを制御する機能を遂行することができる。即ち、本発明による制御部260は、意味単位改善装置100の各構成要素間のデータの流れを制御することによって、音声感知部210、音声処理部220、意味単位改善部230およびデータベース250でそれぞれ固有機能を遂行するように制御することができる。
マッチング
以下では図3を参照して前記に略述したようなマッチングについて詳しく説明する。図3は本発明の実施形態によるマッチング方法に関する例示的なフローチャートである。
まず、意味単位改善部230は、改善用意味単位集合を特定する段階(S1)を遂行することができる。即ち、意味単位改善部230は、音声処理部220から伝達されたデジタル音声信号のうちの使用者の所定の指示の前または後に(または、直前または直後に)伝達されたデジタル信号の音声を改善用音声として、即ち、改善用意味単位集合として特定することができる(前記のような指示は使用者の予め約束された単語の発話や予め約束されたキーの入力であり得る)。
例えば、使用者が“I can correct typing at all without backspace error”のような意味単位集合に該当する音声を発話してから所定の指示を出した場合、“error”に該当するデジタル音声やテキストが改善用意味単位集合として特定される。このような特定は、“error”に該当する音声部分とその前の音声部分(即ち、“backspace”に該当する音声部分または“without backspace”に該当する音声部分)の間の時間間隔が所定の臨界値以上であるという点に基づく。
また、意味単位改善部230は、例えば、使用者が“I can correct typing at all without backspace”のようなテキストが画面にディスプレイされたことに対して改善をすることを意図し所定の指示を出しながらその前または後に“error”を発話した場合にも、該当するデジタル音声に基づいて改善用意味単位集合を特定することができる。
その次に、意味単位改善部230は、特定された改善用意味単位集合に基づいて、捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合を特定する段階(S2)を遂行することができる。
前記段階の遂行前に、前述のように、実際的な改善の対象になる特定意味単位集合を含むさらに大きい意味単位集合が捕捉されていてもよい。このような捕捉された意味単位集合は、前記に例示されたような、“I can correct typing at all without backspace”のような意味集合であり得る。
意味単位改善部230は、捕捉された意味単位集合内の単位間の時間間隔やスペースそして/または改善用意味単位集合の長さ(例えば、該当デジタル音声信号の持続時間、該当音節(または、語節)の数、該当単語の数など)に基づいて、捕捉された意味単位集合を、例えば、“I can”、“can correct”、“correct typing”、“typing at”、“at all”、“all without”、“without backspace”などの部分のように、分けて拡張した後に各部分を改善用意味単位集合と比較してみることができる。
このような比較はデジタル音声間の比較である場合には、時間ドメインや周波数ドメインでのデジタル音声の特徴の比較であり得る。このような音声特徴のうちの典型的に使用されるものはデジタル音声信号の波(wave)における特徴点であり得る。但し、デジタル音声間の比較のためには多様なアルゴリズムを用いることができるので、考慮対象になるデジタル音声の特徴(特性)は下記のもののうちの一つ以上を自由に含むことができる。
(1)時間ドメインでの音声信号の特性
最大振幅、平均振幅、平均周波数、平均値、標準偏差、全体的な(overall)振幅によってノーマライジングされた標準偏差、分散(variance)、スキューネス(skewness)、クルトシス(Kurtosis)、和、絶対和、実効値(Root Mean Square;RMS)、クレストファクタ、分散(dispersion)、エントロピー(entropy)、パワーサム(power sum)、質量中心(center of mass)、変動係数(coefficients of variation)、相互相関性(cross correlation)、ゼロクロッシング(zero−crossings)、反復性(seasonality)、DCバイアス、または前記音声信号の1次、2次、3次またはそれ以上の次数のデリバティブ(derivative)に対して計算された前記のような特性
(2)周波数ドメインでの音声信号の特性
スペクトルセントロイド(spectral centroid)、スペクトルデンシティ(spectral density)、球面調和関数(spherical harmonics)、総平均スペクトルエネルギー(total average spectral energy)、毎オクターブでの帯域エネルギー比率(band energy ratio for every octave)、ログスペクトル帯域比率(log spectral band ratio)、線形予測基盤のケプストラム係数(Linear Prediction−based Cepstral Coefficients;LPCC)、知覚線形予測(Perceptual Linear Prediction;PLP)ケプストラム係数、メル−周波数ケプストラム係数、周波数位相、または前記音声信号の周波数ドメイン表現の1次、2次、3次またはそれ以上の次数のデリバティブに対して計算された前記のような特性
一方、前記のような比較はテキスト間の比較であり得る。この場合、テキストはその語節や語素ごとに比較することができる。このような比較のために公知のテキスト比較アルゴリズムを一つ以上採用することができる。例えば、語節ごとの順次的な類似度(例えば、音価やスペリングの類似度)の高い二つのテキストは相互間に高い関連性を有するテキストと規定することができる。
比較の結果、意味単位改善部230は、捕捉された意味単位集合内で改善用意味単位集合と高い関連性を示す部分をマッチングされた意味単位集合と決定することができる。前記の例で、これは“at all”部分に該当する意味単位集合であり得る。
意味単位集合の改善
以下では図4を参照して前記に略述したような意味単位集合の改善について詳しく説明する。図4は本発明の実施形態による改善方法に関する例示的なフローチャートである。
まず、意味単位改善部230は、マッチングされた意味単位集合を改善用意味単位集合に交替する段階(段階T1)を遂行することができる。この場合、交替の結果物は、捕捉された意味単位集合がマッチングされた意味単位集合の代わりに改善用意味単位集合を含むようになったものであり得る。このような交替の結果物は、改善された音声認識結果であり得、改善されたテキストであり得る。前記の例によれば、改善された音声認識結果乃至テキストは、“I can correct typing error without backspace”であり得る。これは、使用者の元の意図に正確に符合する結果であり得る。
その次に、意味単位改善部230は、改善後に代用される捕捉された意味単位集合に該当するデジタル音声を使用者に聞かせるか、それに該当するテキストをディスプレイする段階(段階T2)を遂行することができる。したがって、前記の例によれば、使用者に聞こえるかディスプレイされるものは“I can correct typing error without backspace”の意味単位集合に該当するデジタル音声やテキストであり得る。
しかし、場合によって、改善用音声は十分な改善を担保できないこともある。これは、使用者に内在された問題(例えば、発音の不正確、放言の使用など)によって改善用音声の品質が最初から十分に高くなくてそれが他の意味単位集合に該当すると誤認識されたり、環境的な問題(例えば、雑音が介入される環境、意味単位改善装置100の低い仕様など)によって改善用音声の品質がそれほど低くないにもかかわらず、その特定過程でそれが他の意味単位集合に該当すると誤認識されたりするためであり得る。このような場合、使用者に聞こえるかディスプレイされるものは、改善試み後にも、例えば、“I can correct typing error without backspace”の意味集合に該当するデジタル音声やテキストではなく、依然として“I can correct typing at all without backspace”の意味集合に該当するデジタル音声やテキストであるか、“I can correct typing era without backspace”の意味集合に該当するデジタル音声やテキストであり得る。これは、使用者にとって非常に残念な結果であり得る。
したがって、本発明の一実施形態によれば、以下のような付加的な段階がさらに遂行されてもよい。
典型的には段階T2の遂行後に、代案的には段階T1の遂行後段階T2の遂行前または段階T1の遂行前に、改善用音声と共に所定の付加情報がさらに使用されると、意味単位改善部230がこれにも基づいて改善用音声に該当する意味単位集合をさらに精巧に特定できる。以下では、これが可能であるようにする付加情報の様々な例について説明する。
1−1.部分スペリング
例えば、使用者は、前記の例で改善用音声に該当する“error”以外に“e”、“r”および“r”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、所定の個数のアルファベット字が連続で発話されてから該当アルファベット字と順次に一致する前部分を有する改善用意味単位集合に該当する改善用音声が発話されると、前記アルファベット字は全て改善用意味単位集合の部分スペリングと見なす設定)やその他のマシンラーニング技法に基づいて、“e”、“r”および“r”が実は改善用意味単位集合をさらに精巧に特定するための部分スペリングに該当するのを把握することができる。これは明らかにも改善用意味単位集合の精巧な特定を担保することであり得る。
1−2.フォネティックコード
例えば、使用者は前記の例で改善用音声に該当する“error”以外に“echo”、“romeo”および“romeo”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、所定の個数のフォネティックコードが連続で発話されてから該当アルファベットの字と順次に一致する前部分を有する改善用意味単位集合に該当する改善用音声が発話されると、前記アルファベット字は全て改善用意味単位集合の部分スペリングと見なす設定)やその他のマシンラーニング技法に基づいて、“echo”、“romeo”および“romeo”が実は改善用意味単位集合をさらに精巧に特定するための部分スペリングに該当するのを把握することができる。
一方、前記のような部分スペリング技法は韓国語においては特定が難しい方である複母音字の解体式発話(例えば、
Figure 2016161935
という改善用意味単位集合のための
Figure 2016161935
および
Figure 2016161935
の順次的な発話)によって実行されてもよく、日本語においては漢字の偏に関する発話(例えば、“嶋田”(しまだ)という改善用意味単位集合がとかく“島田”(しまだ)と誤認されないようにするための“山偏”(やまへん)の追加発話)によって実行されてもよい。
2.ヒント単語
例えば、使用者は前記の例で改善用音声に該当する“error”以外に“of”および“erroneous”を順次にさらに発話することができる。この場合、意味単位改善部230は、事前設定(即ち、改善用音声が発話される部分で“of”が発話されると、その後の音声に該当する単語をヒント単語と見なす設定)やその他のマシンラーニング技法に基づいて、“erroneous”が実は改善用意味単位集合をさらに精巧に特定するためのヒント単語(即ち、少なくともその一部において正しい改善用意味単位集合の単語と同一または類似のスペリングを有する単語)に該当するのを把握することができる。これは、明らかにも改善用意味単位集合の精巧な特定を担保することであり得る。ここで、予約語に該当すると見ることができる“of”は“like”などのように使用者が理解しやすく誤認識率の低い他の単語に代替されてもよい。
一方、前記の例以外にも、使用者が改善用音声として“Zoe”を発話したが、それが“Joe”と認識され誤った改善が行われた場合、使用者は“Zoe”をもう一度発話しながら、“Z”、“of”および“Zebra”のように正しい改善用意味単位集合に含まれなければならないアルファベットを強調するためのヒント単語を予約語および該当アルファベットと共にさらに発話することができる。これにより、意味単位改善部230は、改善用意味単位集合を前記ヒント単語の前記アルファベットを含むように、即ち、“Zoe”になるように訂正することができる。
韓国語の場合にも、
Figure 2016161935

Figure 2016161935
と誤認識された場合、使用者がもう一度
Figure 2016161935
を発話しながら
Figure 2016161935
をさらに発話すると、意味単位改善部230がこれにより改善用意味単位集合をヒント単語
Figure 2016161935
の字
Figure 2016161935
を含むように、即ち、
Figure 2016161935
になるように訂正することができる。
日本語の場合にも、“感じ”(かんじ)が“漢字”(かんじ)と誤認識されたのを訂正するために、“感動の感”(かんどうのかん)が追加発話されるようにしたり、“買いに”(かいに)が“海に”(かいに)と誤認識されたのを訂正するために、“買い物の買い”(かいもののかい)が追加発話されるようにすることができる。
一方、言語と関係なく、正しい改善用意味単位集合と意味が類似した単語が追加発話されるようにしたり(例えば、“error”が改善用意味単位集合になるようにするために予約語の“like”と共に類義語の“mistake”が追加発話されるようにしたり)、上下位関係にある単語が追加発話されるようにしたり(例えば、“Kia”が改善用意味単位集合になるようにするために、予約語の“like”と共に関係語の“car company”が追加発話されるようにしたり)、連想語が追加発話されるようにすることもできる(例えば、
Figure 2016161935
が改善用意味単位集合になるようにするために予約語の“like”と共に連想語の
Figure 2016161935
が追加発話されるようにしたり、“queries”が改善用意味単位集合になるようにするために予約語の“for”と共に連想語の“database”が追加発話されるようにしたりすることができる)。
即ち、意味単位改善部230は、使用者が改善用音声の付近で予約語と共にヒント単語(または、ヒント字)をさらに発話すると、これを解釈して改善用音声に該当する改善用意味単位集合がより一層精巧に特定されるようにすることができる。
以上に説明された本発明による実施形態は、多様なコンピュータ構成要素を通じて実行されるプログラム命令語の形態に実現されコンピュータ読み取り可能な記録媒体に記録される。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され構成されたものであるか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスク(登録商標)および磁気テープのような磁気媒体、CD−ROMおよびDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical medium)、およびROM、RAM、フラッシュメモリなどのような、プログラム命令語を保存し実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを使用してコンピュータによって実行される高級言語コードも含まれる。ハードウェア装置は、本発明による処理を遂行するために一つ以上のソフトウェアモジュールに変更されてもよく、その逆も同様である。
以上で本発明が、具体的な構成要素などのような特定事項と限定された実施形態および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明が前記実施形態に限定されるのではなく、本発明の属する技術分野における通常の知識を有する者であればこのような記載から多様な修正と変更を図ることができる。
したがって、本発明の思想は前述の実施形態に限定されて決められてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なまたはこれから等価的に変更された全ての範囲は本発明の思想の範疇に属するというべきである。
210 音声感知部
220 音声処理部
230 マッチング部
240 意味単位改善部
250 データベース
260 制御部

Claims (11)

  1. 少なくとも一つの意味単位を含む集合を改善するための方法であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、
    使用者の発話により改善用音声を受信する段階、
    前記改善用音声に基づいて改善用意味単位集合を特定する段階、
    前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定する段階、および
    前記捕捉された意味単位集合内で前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する段階
    を含む方法。
  2. 前記改善用意味単位集合は、付加情報にさらに基づいて特定されたものである、請求項1に記載の方法。
  3. 前記付加情報は、前記使用者の発話によるものである、請求項2に記載の方法。
  4. 前記付加情報は、正しい改善用意味単位集合のための部分スペリング情報である、請求項2に記載の方法。
  5. 前記部分スペリング情報は、正しい改善用意味単位集合の一部分と順次に一致する所定の個数の字に関する情報である、請求項4に記載の方法。
  6. 前記部分スペリング情報は、正しい改善用意味単位集合の一部分と順次に一致する所定の個数のフォネティックコードに関する情報である、請求項4に記載の方法。
  7. 前記付加情報は、正しい改善用意味単位集合に関するヒント単語やヒント字に関する情報を含む、請求項2に記載の方法。
  8. 前記ヒント単語は、少なくともその一部において正しい改善用意味単位集合の単語と同一または類似のスペリングを有する単語、正しい改善用意味単位集合に含まれなければならない字を強調するための単語、正しい改善用意味単位集合の単語と類義語関係にある単語、正しい改善用意味単位集合の単語と上下位関係を有する単語および正しい改善用意味単位集合の単語と連想語関係にある単語のうちの少なくとも一つに該当する、請求項7に記載の方法。
  9. 前記付加情報は、予約語をさらに含む、請求項7に記載の方法。
  10. 少なくとも一つの意味単位を含む集合を改善するための装置であって、前記少なくとも一つの意味単位を含む前記集合は捕捉された意味単位集合であり、
    使用者の発話により改善用音声を受信する音声感知部、および
    前記改善用音声に基づいて改善用意味単位集合を特定し、前記改善用意味単位集合との関連性に基づいて、前記捕捉された意味単位集合内で実際的な改善の対象になる意味単位集合をマッチングされた意味単位集合として特定し、前記捕捉された意味単位集合内で前記マッチングされた意味単位集合を前記改善用意味単位集合に交替する意味単位改善部
    を含む装置。
  11. 請求項1乃至9のうちのいずれか一項による方法を実行するためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体。
JP2015186961A 2015-02-26 2015-09-24 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体 Pending JP2016161935A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150026982A KR102217292B1 (ko) 2015-02-26 2015-02-26 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR10-2015-0026982 2015-02-26

Publications (1)

Publication Number Publication Date
JP2016161935A true JP2016161935A (ja) 2016-09-05

Family

ID=56789544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015186961A Pending JP2016161935A (ja) 2015-02-26 2015-09-24 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体

Country Status (5)

Country Link
US (1) US10347242B2 (ja)
JP (1) JP2016161935A (ja)
KR (1) KR102217292B1 (ja)
CN (1) CN107251137B (ja)
WO (1) WO2016137071A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573291B2 (en) 2016-12-09 2020-02-25 The Research Foundation For The State University Of New York Acoustic metamaterial
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
KR102077848B1 (ko) 2019-02-28 2020-02-14 관악아날로그테크놀러지스 주식회사 센서 신호를 탐지하는 반도체 장치 및 이를 포함하는 센서 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315095A (ja) * 1999-04-28 2000-11-14 Sony Corp 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体
JP2007256836A (ja) * 2006-03-24 2007-10-04 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2950823B1 (ja) 1998-09-29 1999-09-20 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識誤り訂正装置
JP3718088B2 (ja) * 1999-09-24 2005-11-16 アルパイン株式会社 音声認識修正方式
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US20050071170A1 (en) * 2003-09-30 2005-03-31 Comerford Liam D. Dissection of utterances into commands and voice data
US20060004570A1 (en) * 2004-06-30 2006-01-05 Microsoft Corporation Transcribing speech data with dialog context and/or recognition alternative information
US20060057545A1 (en) 2004-09-14 2006-03-16 Sensory, Incorporated Pronunciation training method and apparatus
US7565282B2 (en) * 2005-04-14 2009-07-21 Dictaphone Corporation System and method for adaptive automatic error correction
JP4704254B2 (ja) * 2006-03-16 2011-06-15 三菱電機株式会社 読み修正装置
WO2008021512A2 (en) * 2006-08-17 2008-02-21 Neustar, Inc. System and method for handling jargon in communication systems
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7904298B2 (en) * 2006-11-17 2011-03-08 Rao Ashwin P Predictive speech-to-text input
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
JP2009031328A (ja) * 2007-07-24 2009-02-12 Panasonic Corp 音声認識装置
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
WO2010045375A1 (en) * 2008-10-14 2010-04-22 Honda Motor Co., Ltd. Improving dialog coherence using semantic features
US8782556B2 (en) * 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
JP5688677B2 (ja) * 2010-10-04 2015-03-25 日本電気株式会社 音声入力支援装置
KR101197010B1 (ko) * 2011-03-30 2012-11-05 포항공과대학교 산학협력단 음성 처리 장치 및 방법
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
KR20130008663A (ko) * 2011-06-28 2013-01-23 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
US8645825B1 (en) * 2011-08-31 2014-02-04 Google Inc. Providing autocomplete suggestions
US9715489B2 (en) * 2011-11-10 2017-07-25 Blackberry Limited Displaying a prediction candidate after a typing mistake
US10134385B2 (en) * 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US8606577B1 (en) * 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
TW201409462A (zh) * 2012-08-31 2014-03-01 Chung Han Interlingua Knowledge Co Ltd 語意辨識方法
US9292621B1 (en) * 2012-09-12 2016-03-22 Amazon Technologies, Inc. Managing autocorrect actions
US9489372B2 (en) * 2013-03-15 2016-11-08 Apple Inc. Web-based spell checker
AU2014233517B2 (en) * 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
KR101381101B1 (ko) * 2013-11-13 2014-04-02 주식회사 큐키 문자열 사이의 연관성 판단을 통한 오타 수정 방법
US9653073B2 (en) * 2013-11-26 2017-05-16 Lenovo (Singapore) Pte. Ltd. Voice input correction
CN110675866B (zh) * 2014-04-22 2023-09-29 纳宝株式会社 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315095A (ja) * 1999-04-28 2000-11-14 Sony Corp 音声認識装置、音声認識方法及び音声認識制御プログラムを記録した記録媒体
JP2007256836A (ja) * 2006-03-24 2007-10-04 Toshiba Corp 音声認識装置、音声認識方法および音声認識プログラム

Also Published As

Publication number Publication date
US10347242B2 (en) 2019-07-09
KR20160104243A (ko) 2016-09-05
WO2016137071A1 (ko) 2016-09-01
CN107251137B (zh) 2020-08-04
CN107251137A (zh) 2017-10-13
KR102217292B1 (ko) 2021-02-18
US20160253993A1 (en) 2016-09-01

Similar Documents

Publication Publication Date Title
US10027662B1 (en) Dynamic user authentication
US9640175B2 (en) Pronunciation learning from user correction
Kumar et al. A Hindi speech recognition system for connected words using HTK
US8510103B2 (en) System and method for voice recognition
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
US8352260B2 (en) Multimodal unification of articulation for device interfacing
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
JP2016161935A (ja) 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
Thennattil et al. Phonetic engine for continuous speech in Malayalam
Venkatagiri Speech recognition technology applications in communication disorders
JP2002268680A (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JP5596869B2 (ja) 音声認識装置
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2012255867A (ja) 音声認識装置
KR20160062254A (ko) 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치
JP2007535692A (ja) 任意に話されたキャラクタのコンピュータによる認識及び解釈のためのシステム及び方法
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
KR101704501B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR101830210B1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP6221267B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
Akintola et al. Speech Processing Algorithm for Automatic Speaker Recognition-Based Telephone Voice Dialing in Yorùbá
CN115410557A (zh) 语音处理方法、装置、电子设备及存储介质
Chauhan et al. Concurrent Voice Transmission with Customized Grammar Rules based on Locale

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170623