JP2022074852A - 辞書編集装置、辞書編集方法及び辞書編集プログラム - Google Patents

辞書編集装置、辞書編集方法及び辞書編集プログラム Download PDF

Info

Publication number
JP2022074852A
JP2022074852A JP2020185249A JP2020185249A JP2022074852A JP 2022074852 A JP2022074852 A JP 2022074852A JP 2020185249 A JP2020185249 A JP 2020185249A JP 2020185249 A JP2020185249 A JP 2020185249A JP 2022074852 A JP2022074852 A JP 2022074852A
Authority
JP
Japan
Prior art keywords
reliability
word
reading
dictionary
correction candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020185249A
Other languages
English (en)
Other versions
JP7481999B2 (ja
Inventor
憲治 岩田
Kenji Iwata
岳彦 籠嶋
Takehiko Kagoshima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020185249A priority Critical patent/JP7481999B2/ja
Priority to US17/446,092 priority patent/US11995398B2/en
Priority to CN202111000960.4A priority patent/CN114528826A/zh
Publication of JP2022074852A publication Critical patent/JP2022074852A/ja
Application granted granted Critical
Publication of JP7481999B2 publication Critical patent/JP7481999B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2022074852000001
【課題】音声認識辞書に登録される単語についての確認を容易にする辞書編集装置、辞書編集方法及び辞書編集プログラムを提供すること。
【解決手段】辞書編集装置は、単語抽出部と、信頼度計算部と、修正候補特定部とを備える。単語抽出部は、テキストデータから単語を抽出する。読み付与部は、抽出された単語に対して読みを付与する。信頼度計算部は、抽出された単語の信頼度を表す第1の信頼度と付与された読みの信頼度を表す第2の信頼度との少なくとも何れかを計算する。修正候補特定部は、第1の信頼度に応じて修正候補とする単語を特定し、第2の信頼度に応じて修正候補とする読みを特定する。
【選択図】図1

Description

実施形態は、辞書編集装置、辞書編集方法及び辞書編集プログラムに関する。
音声認識技術において、音声認識の精度向上のためには、実際に利用されるシーンでよく発話される専門用語及び音声認識エンジンにとっての未知語を、予め音声認識エンジンで用いられる音声認識辞書に登録しておくことが重要である。しかしながら、そういった専門用語や未知語のリストアップ及びそれらに対する読み付けを人手で行うのは困難である。
これに対し、音声認識エンジンが、利用されるシーンに関連するテキストデータ(例えば大学の授業の音声を認識したいのであれば、その講義資料)を読み込み、自動的に専門用語及び未知語を抽出し、それらの抽出した専門用語及び未知語に自動的に読みを付与する機能を有していれば、辞書への専門用語及び未知語の登録自体は容易になる。しかしながら、自動的に抽出された専門用語及び未知語、自動的に付与された読みは誤っている可能性がある。このため、登録された専門用語及び未知語とそれらの読みの最終的な確認は人手で行われる必要がある。この場合、抽出された専門用語及び未知語の候補数が多くなると、人手だけですべてを確認するのは困難である。
特開2010-157178公報
実施形態は、音声認識辞書に登録される単語についての確認を容易にする辞書編集装置、辞書編集方法及び辞書編集プログラムを提供する。
実施形態の辞書編集装置は、単語抽出部と、読み付与部と、信頼度計算部と、修正候補特定部とを備える。単語抽出部は、テキストデータから単語を抽出する。読み付与部は、抽出された単語に対して読みを付与する。信頼度計算部は、抽出された単語の信頼度を表す第1の信頼度と付与された読みの信頼度を表す第2の信頼度との少なくとも何れかを計算する。修正候補特定部は、第1の信頼度に応じて修正候補とする単語を特定し、第2の信頼度に応じて修正候補とする読みを特定する。
図1は、一実施形態に係わる辞書編集装置を示すブロック図である。 図2は、辞書編集装置のハードウェア構成の一例を示す図である。 図3は、辞書編集装置の動作を示すフローチャートである。 図4は、強調表示の一例を示す図である。
以下、実施形態について説明する。図1は、一実施形態に係わる辞書編集装置を示すブロック図である。辞書編集装置100は、単語抽出部101と、読み付与部102と、信頼度計算部103と、修正候補特定部104と、表示部105とを有している。辞書編集装置100は、音声認識辞書の編集装置である。この音声認識辞書は、それぞれの単語の文字列と、その単語の読みと、その読みに対応した音素とを対応付けて記憶している辞書である。
単語抽出部101は、テキストデータから単語を抽出する。そして、単語抽出部101は、抽出した単語を読み付与部102及び信頼度計算部103に送る。テキストデータは、例えば、音声認識辞書が用いられ得るシーンに関連するテキストデータである。また、単語は、1つ以上の形態素から構成され得る。単語抽出部101は、テキストデータを形態素解析することで単語を抽出する。例えば、単語抽出部101は、形態素辞書を参照してテキストデータを形態素の単位に分割し、分割した1つ以上の形態素を組み合わせて単語を抽出する。このとき、単語抽出部101は、テキストデータ上での出現頻度の多い単語を抽出する。また、単語抽出部101は、いくつかの名詞の連結により成り立っている複合名詞を抽出する。また、単語抽出部101は、他の分野のテキストデータでは出現しにくい単語を専門用語として抽出する。また、単語抽出部101は、読み付き単語辞書又は音声認識辞書に含まれていない単語を未知語として抽出する。単語抽出部101は、これらの複数の単語の抽出手法を組み合わせて統合的に単語を抽出してもよい。例えば、単語抽出部101は、音声認識辞書に含まれていない単語の中から、出現頻度の多い単語、複合名詞、他の分野のテキストデータでは出現しにくい単語を抽出してもよい。単語抽出部101は、既存の単語抽出法を含め、任意の手法で単語を抽出してよい。
読み付与部102は、単語抽出部101で抽出された単語に対して読みを付与する。そして、読み付与部102は、付与した読みを信頼度計算部103に送る。読み付与部102は、例えば読み付き単語辞書を参照し、抽出された単語が単語辞書に登録されているものであれば、そのままその読みを付与する。また、読み付与部102は、抽出された単語が単語辞書に登録されている複数の単語の組み合わせであった場合には、それらの単語の読みを連濁等も考慮しながら連結させて読みを付与する。さらには、読み付与部102は、予め大量のデータで各文字に対する読みを学習しておき、抽出された単語に対してこの学習結果を用いて読みを付与してもよい。読み付与部102は、既存の読み付け法を含め、任意の手法で読みを付与してよい。
信頼度計算部103は、単語抽出部101で抽出された単語に対する第1の信頼度の計算と、読み付与部102で付与された読みに対する第2の信頼度の計算との少なくとも何れかを実施する。そして、信頼度計算部103は、計算した第1の信頼度と第2の信頼度との少なくとも何れかを修正候補特定部104に送る。
例えば、形態素解析が統計的手法によって行われている場合、信頼度計算部103は、形態素解析に伴って得られるそれぞれの形態素のスコアを用いて第1の信頼度を計算してよい。例えば、スコアの合計が高くなるように単語の抽出がされる場合、信頼度計算部103は、スコアの合計が高いほど、大きい値を有するように第1の信頼度を計算する。また、第1の信頼度は、テキストデータ上で、抽出された単語の周辺に存在する単語に応じて調整されてよい。例えば、抽出された単語がアルファベット列又は数字列であり、抽出された単語の前後の単語も同様にアルファベット又は数字を含む場合、抽出された単語とその周辺のアルファベット又は数字も含めて1つの単語である可能性がある。したがって、このような前後にアルファベット又は数字を含むアルファベット列又は数字列については、信頼度計算部103は、元の値よりも下げるように第1の信頼度を計算してよい。同様に、抽出された単語が名詞であり、抽出された単語の前後の単語も名詞である場合、抽出された単語とその周辺の単語も含めて1つの複合名詞である可能性がある。したがって、このような複数の名詞が並ぶ単語については、信頼度計算部103は、元の値よりも下げるように第1の信頼度を計算してよい。
また、テキストデータがもともとは他のアプリケーションで作成されたものだった場合、表示範囲の制限等から単語の途中で改行されることがある。この場合、改行があったとしてもその前後の文章で意味のつながりを持つ場合があるため、改行前後の文章をつなげて単語抽出が行われるのが良いと考えられる。逆に、改行前後で意味が切れている部分がつなげられてしまったがために、不要な単語が抽出されてしまうこともある。そのため、信頼度計算部103は、改行が含まれる箇所から単語を抽出した場合、第1の信頼度を下げるよう計算してもよい。
この他、抽出された単語とその前後の単語とがつなげられた際に、つなげられる前とは別の形態素の組み合わせでかつ辞書に登録されている単語の組み合わせで表現されるときには、信頼度計算部103は、さらにその別の形態素のスコアによって第1の信頼度を再計算してもよい。例えば「業務完全自動」という単語が形態素解析の結果、周辺の単語の影響も受けて「業務完」と「全自動」という2つの単語に分割されたとする。「業務完」という単語は、読み付き単語辞書には存在しない単語である。一方、「業務完」とその周辺の単語である「全自動」とつなげられた場合に、「業務完全自動」という単語が得られる。この「業務完全自動」という単語だけについて形態素解析が実施されると、「業務」、「完全」、「自動」という3つの形態素に分割される可能性が高い。それぞれの形態素は、読み付き単語辞書に含まれている単語でもある。さらに、このような形態素解析が行われたときのそれぞれの形態素のスコアも高いと考えられる。したがって、信頼度計算部103は、「業務完」についての第1の信頼度を低くしてよい。
また、信頼度計算部103は、付与された読みが読み付き単語辞書に含まれる単語のそれぞれの読みに基づいて付与されたものであるときに高い値を有するように第2の信頼度を計算してよい。一方、第2の信頼度は、付与された読みが読み付き単語辞書に含まれる複数の単語の組み合わせに基づいて付与された読みであるときには、信頼度計算部103は、それぞれの単語に基づいて付与された読みに対する値よりも低い値を有するように第2の信頼度を計算してもよい。さらに、付与された読みが読み付き単語辞書に含まれる単語に基づいて付与されていない読みであるときには、信頼度計算部103は、単語辞書に含まれる複数の単語に基づいて付与された読みに対する値よりも低い値を有するように第2の信頼度を計算してもよい。また、統計的に読みが付与された場合にはその読み付与に伴って得られたスコアが第2の信頼度として用いられ得る。その他、アルファベットや数字が含まれる単語は読み付与が難しいため、信頼度計算部103は、一律に第2の信頼度の値を下げてもよい。
修正候補特定部104は、信頼度計算部103で計算された信頼度に基づき、修正候補とすべき単語及び読みを特定する。そして、修正候補特定部104は、修正候補とすべき単語及び読み情報を表示部105に送る。修正候補特定部104は、修正候補とすべき単語と読みの一方だけを特定してもよい。具体的な特定方法として、修正候補特定部104は、閾値を下回る第1の信頼度を有する単語及び閾値を下回る第2の信頼度を有する読みを修正候補としてよい。なお、第1の信頼度の閾値と第2の信頼度の閾値とは同じであってもよいし、異なっていてもよい。この他、修正候補特定部104は、閾値を下回る第1の信頼度を有する単語があったときにはその単語の読みも修正候補にしたり、逆に閾値を下回る第2の信頼度を有する読みがあったときにはその読みを有する単語も修正候補にしたりしてもよい。また、修正候補特定部104は、第1の信頼度と第2の信頼度とのどちらも閾値を下回ったときにだけ、それらの単語と読みを修正候補にしてもよい。
表示部105は、修正候補特定部104で特定された修正候補の単語又は読みを表示画面上で強調表示する。
ここで、図1の例では、単語の抽出、読みの付与、信頼度の計算の順に処理が行われる。これに対し、先に読みの付与がされてから単語の抽出が行われてもよいし、単語の抽出と読みの付与と並列して信頼度の計算が行われてもよい。また、単語に対する信頼度である第1の信頼度が読みに対する信頼度である第2の信頼度の計算に用いられてもよいし、逆に第2の信頼度が第1の信頼度の計算に用いられてもよい。
図2は、辞書編集装置100のハードウェア構成の一例を示す図である。辞書編集装置100は、例えばプロセッサ201と、メモリ202と、入力装置203と、表示装置204と、通信装置205と、ストレージ206とをハードウェアとして有している。プロセッサ201と、メモリ202と、入力装置203と、表示装置204と、通信装置205と、ストレージ206とは、バス207に接続されている。辞書編集装置100は、パーソナルコンピュータ(PC)、スマートフォン、タブレット端末といった端末装置であってよい。
プロセッサ201は、辞書編集装置100の全体的な動作を制御するプロセッサである。プロセッサ201は、例えばストレージ206に記憶されている辞書編集プログラムを実行することによって、単語抽出部101と、読み付与部102と、信頼度計算部103と、修正候補特定部104と、表示部105として動作する。プロセッサ201は、例えばCPUである。プロセッサ201は、MPU、GPU、ASIC、FPGA等であってもよい。プロセッサ201は、単一のCPU等であってもよいし、複数のCPU等であってもよい。
メモリ202は、ROM及びRAMを含む。ROMは、不揮発性のメモリである。ROMは、辞書編集装置100の起動プログラム等を記憶している。RAMは、揮発性のメモリである。RAMは、例えばプロセッサ201における処理の際の作業メモリとして用いられる。
入力装置203は、タッチパネル、キーボード、マウス等の入力装置である。入力装置203の操作がされた場合、操作内容に応じた信号がバス207を介してプロセッサ201に入力される。プロセッサ201は、この信号に応じて各種の処理を行う。入力装置203は、辞書への単語の登録及びその修正に用いられ得る。
表示装置204は、液晶ディスプレイ、有機ELディスプレイ等の表示装置である。表示装置204は、各種の画像を表示する。
通信装置205は、辞書編集装置100が外部の機器と通信するための通信装置である。通信装置205は、有線通信のための通信装置であってもよいし、無線通信のための通信装置であってもよい。
ストレージ206は、例えばフラッシュメモリ、ハードディスクドライブ、ソリッドステートドライブといったストレージである。ストレージ206は、辞書編集プログラム2061等のプロセッサ201によって実行される各種のプログラムを記憶している。また、ストレージ206は、形態素辞書2062を記憶している。形態素辞書2062は、例えば形態素を表す文字列とそれぞれの形態素の品詞とを対応付けて記憶している辞書である。また、ストレージ206は、読み付き単語辞書2063を記憶している。読み付き単語辞書は、単語を表す文字列とその単語の読みとを対応付けて記憶している辞書である。また、ストレージ206は、音声認識辞書2064を記憶している。ここで、形態素辞書2062、読み付き単語辞書2063及び音声認識辞書2064は、必ずしもストレージ206に記憶されている必要はない。例えば、形態素辞書2062、読み付き単語辞書2063及び音声認識辞書2064は、辞書編集装置100の外部のサーバに記憶されていてもよい。この場合、辞書編集装置100は、通信装置205を用いてサーバにアクセスすることで必要な情報を取得する。
バス207は、プロセッサ201と、メモリ202と、入力装置203と、表示装置204と、通信装置205と、ストレージ206との間のデータのやり取りのためのデータ転送路である。
次に、辞書編集装置100の動作を説明する。図3は、辞書編集装置100の動作を示すフローチャートである。図3の処理は、プロセッサ201によって実行される。
ステップS1において、プロセッサ201は、テキストデータを取得する。テキストデータは、例えば辞書編集装置100のユーザによって入力され得る。この他、テキストデータは、紙面にプリントされたテキストを画像認識等によって読み取ることでも入力され得る。このように、テキストデータの取得は、特定の手法に限定されない。
ステップS2において、プロセッサ201は、テキストデータから単語を抽出する。プロセッサ201は、形態素辞書2062を参照してテキストデータを形態素の単位に分割し、分割した1つ以上の形態素を組み合わせて単語を抽出する。
ステップS3において、プロセッサ201は、抽出された単語に対して読みを付与する。プロセッサ201は、読み付き単語辞書2063を参照してそれぞれの単語に読みを付与する。
ステップS4において、プロセッサ201は、単語の信頼度を表す第1の信頼度を計算する。例えば、プロセッサ201は、形態素解析に伴って得られるそれぞれの形態素のスコアを用いて第1の信頼度を計算する。そして、プロセッサ201は、抽出された単語とその周辺に存在する単語との関係に従って第1の信頼度の値を調整する。
ステップS5において、プロセッサ201は、閾値を下回っている第1の信頼度を有する単語があるか否かを判定する。ステップS5において、閾値を下回っている第1の信頼度を有する単語があると判定されたときには処理はステップS6に移行する。ステップS5において、閾値を下回っている第1の信頼度を有する単語がないと判定されたときには処理はステップS7に移行する。
ステップS6において、プロセッサ201は、閾値を下回っている第1の信頼度に対応している単語にフラグを設定する。このフラグは、抽出された単語が修正候補であることを示すフラグである。その後、処理はステップS7に移行する。
ステップS7において、プロセッサ201は、読みの信頼度を表す第2の信頼度を計算する。例えば、プロセッサ201は、読みが読み付き単語辞書2063に登録されている単語に基づいて付与されているか等に基づいて第2の信頼度を計算する。
ステップS8において、プロセッサ201は、閾値を下回っている第2の信頼度を有する読みがあるか否かを判定する。ステップS8において、閾値を下回っている第2の信頼度を有する読みがあると判定されたときには処理はステップS9に移行する。ステップS8において、閾値を下回っている第2の信頼度を有する読みがないと判定されたときには処理はステップS10に移行する。
ステップS9において、プロセッサ201は、閾値を下回っている第2の信頼度を有する読みにフラグを設定する。このフラグは、付与された読みが修正候補であることを示すフラグである。その後、処理はステップS10に移行する。
ステップS10において、プロセッサ201は、新たに抽出された単語及びその読みの一覧を例えば表形式で表示装置204に表示する。
ステップS11において、プロセッサ201は、フラグが設定されている単語又は読みがあるか否かを判定する。ステップS11において、フラグが設定されている単語又は読みがないと判定されたときには、図3の処理は終了する。この場合、例えばユーザの入力装置203の操作によって単語及びその読みの登録が指示されたときには、プロセッサ201は、新たに抽出された単語及びその読みを音素と関連付けて音声認識辞書2064に登録する。また、ユーザの入力装置203の操作によって単語及びその読みの編集が指示されたときには、プロセッサ201は、新たに抽出された単語及びその読みをユーザの操作に応じて修正した上で音声認識辞書2064に登録する。また、ステップS11において、フラグが設定されている単語又は読みがあると判定されたときには、処理はステップS12に移行する。
ステップS12において、プロセッサ201は、フラグが設定されている単語又は読みを強調表示する。その後、図3の処理は終了する。この場合、例えばユーザの入力装置203の操作によって単語及びその読みの登録が指示されたときには、プロセッサ201は、新たに抽出された単語及びその読みを音素と関連付けて音声認識辞書2064に登録する。また、ユーザの入力装置203の操作によって単語及びその読みの編集が指示されたときには、プロセッサ201は、新たに抽出された単語及びその読みをユーザの操作に応じて修正した上で音声認識辞書2064に登録する。
ステップS12の強調表示について説明する。図4は、強調表示の一例を示す図である。図4では、線形代数のテキストデータに対して単語の抽出と読みの付与が実施された例が示されている。ステップS10の処理により、表示装置204の表示画面には、抽出された単語とその読みの一覧表2041が表示される。この一覧表2041の中で信頼度が低かった単語又は読みは強調表示される。
例えば「直交補」という単語は、線形代数学における「直交補空間(ちょっこうほくうかん)」という単語の一部である。つまり、「直交補」は、前後の文脈によって「空間」が抽出されたことによる残りの単語である。これに対し、「直交補空間」に対して再度の形態素解析が行われると「直交」と「補空間」に分割され、「直交補」は「直交補空間」の一部である可能性が高いことが分かる。したがって、単語「直交補」についての第1の信頼度は下げられる。結果として、単語「直交補」は強調表示される。図4では、単語「直交補」が表示されるセルが太枠で表示されている。一方、読み「ちょっこうほ」については、読み付き単語辞書に含まれるそれぞれの単語の読みに基づいて付与されたものであることから、強調表示されなくてよい。前述したように、対応する単語に対する第1の信頼度が低いと判定されているため、読み「ちょっこうほ」も強調表示されてよい。また、図4では、新たに抽出された単語「直交補空間」及びその読み「ちょっこうほくうかん」も表示されている。この新たに抽出された単語及び読みの表示は、省略されてもよい。
また、読み「ぐむれすほう」は、一般化最小残差法を表す単語「GMRES法」の読みである。単語「GMRES法」は、アルファベット列から構成される単語であるため、その読みである「ぐむれすほう」は一覧表2041において強調表示される。なお、単語「GMRES法」は、再度の形態素解析が行われても同様に抽出される。したがって、単語「GMRES法」については強調表示されなくてよい。前述したように、対応する読みに対する第2の信頼度が低いと判定されているため、単語「GMRES法」も強調表示されてよい。
ここで、図4の例では、修正候補の単語又は読みが表示されるセルを太枠で表示することで強調表示が行われている。強調表示はこれに限るものではない。例えば、セルの背景色が変更されたり、セルの枠の色が変更されたり、セルの大きさが変更されたりしてもよい。また、セルの文字の色が変更されたり、フォント(文字フォント、太字、斜体、下線などを含む)が変更されたり、文字の大きさが大きくされたりしてもよい。また、信頼度の値の大きさに応じてセルの枠の太さ、色等が変更されてもよい。さらには、これらが組み合わせられて強調表示がされてもよい。
また、一覧表2041には、単語と読みだけでなく、それぞれの信頼度の値も併せて表示されてもよい。
以上説明したように実施形態によれば、テキストデータから自動的に抽出された単語及び自動的に付与された読みに対して信頼度が計算され、信頼度に基づき修正候補となる単語又は読みが特定される。このような特定結果に基づいて修正候補となる単語又は読みがユーザに提示されることで、ユーザは修正候補の単語又は読みを重点的に確認すればよい。したがって、ユーザによる確認作業及び修正作業が容易となる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
ここで、実施形態では、辞書編集装置100は、単語抽出部101と、読み付与部102と、信頼度計算部103と、修正候補特定部104と、表示部105とを有しているものとしている。これに対し、辞書編集装置100は、必ずしもこれらのすべてを有していてなくてもよい。例えば、辞書編集装置100は、単語抽出部101と、読み付与部102を有していなくてもよい。この場合、辞書編集装置100は、抽出された単語、付与された読みに加えて、信頼度を計算するために必要な情報を取得する。信頼度を計算するために必要な情報は、例えば形態素解析に伴って計算された各形態素のスコアである。そして、辞書編集装置100は、信頼度を計算するために必要な情報に基づいて第1の信頼度及び第2の信頼度を計算する。また、辞書編集装置100は、表示部105を有していなくてもよい。この場合、辞書編集装置100は、特定された修正候補の単語及び読みの情報を外部に出力するように構成されていてよい。
100 辞書編集装置、101 単語抽出部、102 読み付与部、103 信頼度計算部、104 修正候補特定部、105 表示部、201 プロセッサ、202 メモリ、203 入力装置、204 表示装置、205 通信装置、206 ストレージ、207 バス、2061 辞書編集プログラム、2062 形態素辞書、2063 読み付き単語辞書、2064 音声認識辞書。

Claims (9)

  1. テキストデータから単語を抽出する単語抽出部と、
    抽出された前記単語に対して読みを付与する読み付与部と、
    抽出された前記単語の信頼度を表す第1の信頼度と付与された前記読みの信頼度を表す第2の信頼度との少なくとも何れかを計算する信頼度計算部と、
    前記第1の信頼度に応じて修正候補とする単語を特定し、前記第2の信頼度に応じて修正候補とする読みを特定する修正候補特定部と、
    を備える辞書編集装置。
  2. 前記信頼度計算部は、前記単語抽出部が前記テキストデータ上の改行前後の文字をつなげて、改行を含む文字列から単語の抽出を行ったかに応じて前記第1の信頼度を計算する請求項1に記載の辞書編集装置。
  3. 前記信頼度計算部は、前記テキストデータ上で、抽出された前記単語の周辺に存在する単語の情報を用いて前記第1の信頼度を計算する請求項1に記載の辞書編集装置。
  4. 前記信頼度計算部は、前記テキストデータ上で、抽出された前記単語の周辺に存在する単語を用いて形態素解析を行った結果に基づいて前記第1の信頼度を再計算する請求項3に記載の辞書編集装置。
  5. 前記信頼度計算部は、前記読みが読み付与を行うための辞書に登録されている単語に基づいて付与されているか、前記読みが前記辞書に登録されている複数の単語に基づいて付与されているか、前記読みが付与された単語が数字又はアルファベットを含むかの少なくとも何れかを用いて前記第2の信頼度を計算する請求項1に記載の辞書編集装置。
  6. 前記修正候補特定部で特定された修正候補の単語又は読みを強調表示する表示部をさらに備える請求項1乃至5の何れか1項に記載の辞書編集装置。
  7. 前記表示部は、前記修正候補とすべき単語又は読みが表示されるセルの背景色、前記セルの枠の太さ、前記セルの枠の大きさ、前記セルの枠の色、前記セルにおいて表示される文字の色、前記文字のフォント、前記文字の大きさの少なくとも何れかを変更することで前記強調表示をする請求項6に記載の辞書編集装置。
  8. テキストデータから単語を抽出することと、
    抽出された前記単語に対して読みを付与することと、
    抽出された前記単語の信頼度を表す第1の信頼度と付与された前記読みの信頼度を表す第2の信頼度との少なくとも何れかを計算することと、
    前記第1の信頼度に応じて修正候補とする単語を特定し、前記第2の信頼度に応じて修正候補とする読みを特定することと、
    を備える辞書編集方法。
  9. テキストデータから単語を抽出することと、
    抽出された前記単語に対して読みを付与することと、
    抽出された前記単語の信頼度を表す第1の信頼度と付与された前記読みの信頼度を表す第2の信頼度との少なくとも何れかを計算することと、
    前記第1の信頼度に応じて修正候補とする単語を特定し、前記第2の信頼度に応じて修正候補とする読みを特定することと、
    をプロセッサに実行させるための辞書編集プログラム。
JP2020185249A 2020-11-05 2020-11-05 辞書編集装置、辞書編集方法及び辞書編集プログラム Active JP7481999B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020185249A JP7481999B2 (ja) 2020-11-05 2020-11-05 辞書編集装置、辞書編集方法及び辞書編集プログラム
US17/446,092 US11995398B2 (en) 2020-11-05 2021-08-26 Dictionary editing apparatus, dictionary editing method, and recording medium recording thereon dictionary editing program
CN202111000960.4A CN114528826A (zh) 2020-11-05 2021-08-30 词典编辑装置、词典编辑方法以及记录有词典编辑程序的记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020185249A JP7481999B2 (ja) 2020-11-05 2020-11-05 辞書編集装置、辞書編集方法及び辞書編集プログラム

Publications (2)

Publication Number Publication Date
JP2022074852A true JP2022074852A (ja) 2022-05-18
JP7481999B2 JP7481999B2 (ja) 2024-05-13

Family

ID=81380122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020185249A Active JP7481999B2 (ja) 2020-11-05 2020-11-05 辞書編集装置、辞書編集方法及び辞書編集プログラム

Country Status (3)

Country Link
US (1) US11995398B2 (ja)
JP (1) JP7481999B2 (ja)
CN (1) CN114528826A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7481999B2 (ja) 2020-11-05 2024-05-13 株式会社東芝 辞書編集装置、辞書編集方法及び辞書編集プログラム
JP7467314B2 (ja) * 2020-11-05 2024-04-15 株式会社東芝 辞書編集装置、辞書編集方法、及びプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE59700536D1 (de) 1996-04-02 1999-11-11 Siemens Ag Anordnung zur erstellung eines digitalen wörterbuchs und verfahren zum aufbau eines digitalen wörterbuchs mit hilfe eines rechners
AU2001259446A1 (en) 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
US20040205671A1 (en) 2000-09-13 2004-10-14 Tatsuya Sukehiro Natural-language processing system
JP4089861B2 (ja) 2001-01-31 2008-05-28 三菱電機株式会社 音声認識文章入力装置
JP4048169B2 (ja) * 2001-06-11 2008-02-13 博 石倉 スペースの自動生成によって文章入力を支援するシステム
WO2004044887A1 (ja) 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
US7437296B2 (en) 2003-03-13 2008-10-14 Matsushita Electric Industrial Co., Ltd. Speech recognition dictionary creation apparatus and information search apparatus
JP4559946B2 (ja) 2005-09-29 2010-10-13 株式会社東芝 入力装置、入力方法および入力プログラム
JP5040909B2 (ja) * 2006-02-23 2012-10-03 日本電気株式会社 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US20070239455A1 (en) 2006-04-07 2007-10-11 Motorola, Inc. Method and system for managing pronunciation dictionaries in a speech application
JP2009217611A (ja) 2008-03-11 2009-09-24 Toshiba Corp 音声対話装置
JP4701292B2 (ja) 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5646146B2 (ja) 2009-03-18 2014-12-24 株式会社東芝 音声入力装置、音声認識システム及び音声認識方法
JP5838781B2 (ja) 2011-12-20 2016-01-06 富士通株式会社 複合語読み表示方法及びプログラム,並びに読み生成装置
JP2015060095A (ja) 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
US9779722B2 (en) 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US9947313B2 (en) 2015-01-26 2018-04-17 William Drewes Method for substantial ongoing cumulative voice recognition error reduction
US20160275942A1 (en) 2015-01-26 2016-09-22 William Drewes Method for Substantial Ongoing Cumulative Voice Recognition Error Reduction
JP6766384B2 (ja) 2016-03-11 2020-10-14 富士ゼロックス株式会社 情報処理装置及びプログラム
JP6497372B2 (ja) 2016-09-29 2019-04-10 トヨタ自動車株式会社 音声対話装置および音声対話方法
US11043213B2 (en) * 2018-12-07 2021-06-22 Soundhound, Inc. System and method for detection and correction of incorrectly pronounced words
JP7481999B2 (ja) 2020-11-05 2024-05-13 株式会社東芝 辞書編集装置、辞書編集方法及び辞書編集プログラム

Also Published As

Publication number Publication date
CN114528826A (zh) 2022-05-24
JP7481999B2 (ja) 2024-05-13
US20220138416A1 (en) 2022-05-05
US11995398B2 (en) 2024-05-28

Similar Documents

Publication Publication Date Title
US7783472B2 (en) Document translation method and document translation device
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
US11995398B2 (en) Dictionary editing apparatus, dictionary editing method, and recording medium recording thereon dictionary editing program
JP2013097446A (ja) 情報出力装置、情報出力方法、及びコンピュータプログラム
RU2665274C2 (ru) Всплывающая панель верификации
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
EP2031490A2 (en) Electronic dictionary, search method for and electronic dictionary, and search program for an alectronic dictionary
KR20110069488A (ko) 입력 언어에 따른 전자사전의 자동검색 시스템 및 그 방법
US20120230590A1 (en) Image processing apparatus, non-transitory computer-readable medium, and image processing method
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JP2008027133A (ja) 帳票処理装置及び帳票処理方法ならびに帳票処理方法を実行するプログラムと記憶媒体
JP6933395B2 (ja) 自動翻訳装置及び自動翻訳プログラム
KR20130122437A (ko) 영어의 한글 표기 방법 및 시스템
CN107870905B (zh) 一种特定词汇的识别方法
JP2017091024A (ja) 入力支援装置
JP7467314B2 (ja) 辞書編集装置、辞書編集方法、及びプログラム
JPS6118074A (ja) プレ・エデイツト方式
JP2008090247A (ja) 和訳ローマ字略語を付加したゲルマン語群言語の辞書。
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP7554531B1 (ja) 新規呼出文字列登録プログラム、新規呼出文字列登録装置および新規呼出文字列登録方法
JP7466326B2 (ja) 表示装置、及びプログラム
CN113553832B (zh) 文字处理方法和装置、电子设备以及计算机可读存储介质
CN107679043A (zh) 数据处理方法、装置及终端设备
JP2007316834A (ja) 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240426

R150 Certificate of patent or registration of utility model

Ref document number: 7481999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150