JP2018032187A - 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム - Google Patents

正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム Download PDF

Info

Publication number
JP2018032187A
JP2018032187A JP2016163366A JP2016163366A JP2018032187A JP 2018032187 A JP2018032187 A JP 2018032187A JP 2016163366 A JP2016163366 A JP 2016163366A JP 2016163366 A JP2016163366 A JP 2016163366A JP 2018032187 A JP2018032187 A JP 2018032187A
Authority
JP
Japan
Prior art keywords
expression
list
formal name
abbreviated
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016163366A
Other languages
English (en)
Other versions
JP6651183B2 (ja
Inventor
亮 増村
Akira Masumura
亮 増村
中村 孝
Takashi Nakamura
孝 中村
伊藤 彰則
Akinori Ito
彰則 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Original Assignee
Tohoku University NUC
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC, Nippon Telegraph and Telephone Corp filed Critical Tohoku University NUC
Priority to JP2016163366A priority Critical patent/JP6651183B2/ja
Publication of JP2018032187A publication Critical patent/JP2018032187A/ja
Application granted granted Critical
Publication of JP6651183B2 publication Critical patent/JP6651183B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】世の中で使われたことがある省略表現を正式名称とのペアとするリストを生成する正式名称・省略表現リスト生成装置を提供する。【解決手段】正式名称記録部190に記録された正式名称のリストである正式名称リストと、正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、正式名称と固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成装置105であって、固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、固有表現リストの要素である固有表現Cが正式名称リストの要素である正式名称の省略表現になっているか判断し、固有表現Cが正式名称リストのある正式名称Dの省略表現になっている場合には、正式名称Dと固有表現Cのペアを要素とするリストである正式名称・省略表現リストを生成するリスト照合部120とを含む。【選択図】図3

Description

本発明は、地名や組織名などについての正式名称と省略表現のペアを要素とするリストを自動的に生成する技術に関する。
音声認識や音声対話・機械翻訳などの言語処理においては、固有名詞の言語理解が重要である。その際に、表現としては異なるが同一の意味を持つ用語が存在する。これらは、基本的に正式名称と省略表現に分けることができる。
音声認識や音声対話・機械翻訳などの言語処理では、言語理解の際に、地名や組織名などについては、その省略表現から正式名称をたどる処理や省略表現と正式名称が同一のものを指示するのかを判断する処理をしばしば行うことで、頑健な処理系統を実現する。これらの処理を実現するためには、どの省略表現がどの正式名称に対応付いているかを示す(正式名称と省略表現のペアの)リストを持つことが重要になる。
ここでは、地域災害情報入力のための音声認識を例に挙げてそのリストの重要性を説明する。災害時における被害状況の把握、被災者の救護、国や周辺自治体への救援要請、避難所の管理などの地域災害情報には、場所や施設などの情報が必ず含まれるため、当該地域における地名、組織名などの音声認識が必要不可欠である。しかしながら、地域に特化した地名や組織名などは大量にあるため、一般の音声認識器の辞書には、これらの地名や組織名などの必要な固有表現が網羅されていない。そこで、他の情報源から地名・組織名などを取得し、それらを音声認識器の辞書に追加しておき、地域災害情報入力に必要な音声認識器を構築しておくことが、実用上は必要となる。
その際、地名・組織名などを取得するためのリストが必要であるが、整備されているデータベースには、一般的に地名・組織名などの正式名称のみが登録されている。地名・組織名などの正式名称のみを音声認識器の辞書に追加するだけでは、実際の発話に対応することができない。その理由は、実際の発話では地名・組織名などの正式名称の省略表現を用いて発話することが多いからである。例えば、「日本電信電話公社」という正式名称に対して、「電電公社」という省略表現が使われることがある。また、「○○高等学校」という正式名称に対して、「○○高校」や「○○高」などの省略表現が使われることもある。
このような状況を鑑みて、正式名称のデータベースを用いて、正式名称に対応する省略表現のデータベースを作る取組みがある。非特許文献1では、地名・組織名などの固有表現の正式名称から実際に発話される省略表現を推定することでデータベースを作成する方法を開示しており、実際に推定した省略表現を音声認識器の辞書に追加することで、音声認識性能の向上を報告している。
K. Shiga, T. Nose, A. Ito, R. Masumura and H. Masataki, "Automatic Generation of Proper Noun Entries in a Speech Recognizer for Local Information Recognition", Proc. 12th Western Pacific Acoustic Conference 2015 (WESPAC 2015), pages 486-490-a, Singapore, 2015.
非特許文献1では、正式名称から自動的に省略表現を作成し、正式名称と省略表現のペアを生成していく方法を示しているが、作成した省略表現が実際に世の中で使われている省略表現であるのかについては評価することはできていない。したがって、全く世の中で使われたことのないような省略表現を正式名称とのペアとして生成してしまう可能性がある。
そこで本発明では、世の中で使われたことがある省略表現を正式名称とのペアとするリストを生成する正式名称・省略表現リスト生成装置を提供することを目的とする。
本発明の一態様は、正式名称記録部に記録された正式名称のリストである正式名称リストと、前記正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、前記正式名称と前記固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成装置であって、前記固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、前記固有表現リストの要素である固有表現Cが前記正式名称リストの要素である正式名称の省略表現になっているか判断し、前記固有表現Cが前記正式名称リストのある正式名称Dの省略表現になっている場合には、前記正式名称Dと前記固有表現Cのペアを要素とするリストである正式名称・省略表現リストを生成するリスト照合部とを含む。
本発明の一態様は、正式名称記録部に記録された正式名称のリストである正式名称リストと、前記正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、前記正式名称と前記固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成装置であって、前記固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、前記固有表現の文字表現をC=c・c・…・c(ただし、nは1以上の整数、c(1≦i≦n)は文字)、前記正式名称の文字表現をD=d・d・…・d(ただし、mは1以上の整数(n<m)、d(1≦j≦m)は文字)とし、前記固有表現Cと前記正式名称Dに対して、1≦k<…<k≦mを満たすインデックス(k,…,k)が存在し、すべての1≦i≦nについてc=dk_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現であると判断する文字表現照合部と、前記文字表現照合部により前記正式名称Dの省略表現であると判断された前記固有表現Cと前記正式名称Dから、前記正式名称Dと前記固有表現Cのペアを生成し、当該ペアを要素とする前記正式名称・省略表現リストを生成する正式名称・省略表現リスト生成部とを含む。
本発明の一態様は、正式名称記録部に記録された正式名称のリストである正式名称リストと、前記正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、前記正式名称と前記固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成装置であって、前記固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、前記固有表現の文字表現をC=c・c・…・c(ただし、nは1以上の整数、c(1≦i≦n)は文字)、前記正式名称の文字表現をD=d・d・…・d(ただし、mは1以上の整数(n<m)、d(1≦j≦m)は文字)、前記固有表現の形態素表現をC=C・C・…・C(ただし、Nは1以上の整数、C(1≦i≦N)は形態素)、前記正式名称の形態素表現をD=D・D・…・D(ただし、Mは1以上の整数(N<M)、D(1≦j≦M)は形態素)とし、前記固有表現Cと前記正式名称Dに対して、1≦k<…<k≦mを満たすインデックス(k,…,k)が存在し、すべての1≦i≦nについてc=dk_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現の可能性があると判断する文字表現照合部と、前記文字表現照合部により前記正式名称Dの省略表現の可能性があると判断された前記固有表現Cと前記正式名称Dに対して、1≦K<…<K≦Mを満たすインデックス(K,…,K)が存在し、すべての1≦i≦NについてC=DK_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現であると判断する形態素表現照合部と、前記形態素表現照合部により前記正式名称Dの省略表現であると判断された前記固有表現Cと前記正式名称Dから、前記正式名称Dと前記固有表現Cのペアを生成し、当該ペアを要素とする前記正式名称・省略表現リストを生成する正式名称・省略表現リスト生成部とを含む。
本発明によれば、公開されているテキストデータから抽出した固有表現の中から正式名称の省略表現を選択することにより、正式名称と世の中で使われたことがある省略表現のペアを要素とするリストを自動的に生成することが可能となる。
固有表現抽出機能付正式名称・省略表現リスト生成装置100の構成を示すブロック図。 固有表現抽出機能付正式名称・省略表現リスト生成装置100の動作を示すフローチャート。 正式名称・省略表現リスト生成装置105の構成を示すブロック図。 正式名称・省略表現リスト生成装置105の動作を示すフローチャート。 正式名称・省略表現リスト生成装置105aの構成を示すブロック図。 正式名称・省略表現リスト生成装置105aの動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<記法>
_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
<本発明の要点>
本発明では、地名・組織名に関する正式名称リストが必要である。また、大規模テキストデータを用意する必要がある。大規模テキストデータとして、例えば、Web上のテキストデータやTwitterのデータなどインターネットで収集できるテキストデータのような公開されているテキストデータを使用する。本発明では、このように実際に使用されている大規模テキストデータから、省略表現の候補となり得る固有表現を抽出し、抽出した固有表現各々について正式名称リスト中の正式名称と対応がとれるかどうかを評価する。その際、正式名称の省略表現として適さないものを間違えてリスト化しないようにするための制約を導入する。
なお、1つの省略表現に対して対応する正式名称は1つとは限らない。例えば、「吉田商店」という省略表現のように、「吉田商店新潟店」「吉田商店仙台店」など複数の正式名称に対応付けられる場合が存在する。
<実施形態1>
以下、図1〜図4を参照して固有表現抽出機能付正式名称・省略表現リスト生成装置100について説明する。図1は、固有表現抽出機能付正式名称・省略表現リスト生成装置100の構成を示すブロック図である。図2は、固有表現抽出機能付正式名称・省略表現リスト生成装置100の動作を示すフローチャートである。図1に示すように、固有表現抽出機能付正式名称・省略表現リスト生成装置100は、固有表現抽出部110と、正式名称・省略表現リスト生成装置105を含む。正式名称・省略表現リスト生成装置105は、リスト照合部120と、正式名称記録部190を含む。正式名称記録部190には、地名・組織名などの正式名称のリスト(以下、正式名称リストという)が記録されている。正式名称記録部190に記録されている正式名称の数をJとする(ただし、Jは1以上の整数)。
また、図3は、正式名称・省略表現リスト生成装置105の構成を示すブロック図である。図4は、正式名称・省略表現リスト生成装置105の動作を示すフローチャートである。図3に示すように、正式名称・省略表現リスト生成装置105のリスト照合部120は、文字表現照合部121と、形態素表現照合部122と、正式名称・省略表現リスト生成部123を含む。
固有表現抽出機能付正式名称・省略表現リスト生成装置100は、公開されているテキストデータ(例えば、Web上のテキストなど大規模テキストデータ)と正式名称リストを用いて、正式名称と省略表現のペアのリストを生成する。
なお、固有表現抽出機能付正式名称・省略表現リスト生成装置100が固有表現を抽出するテキストデータは、インターネット上のテキストデータに限られるものではない。実際に用いられているテキストデータ、公開されているテキストデータであればどのようなものでもよい。
以下、固有表現抽出部110、リスト照合部120について説明する。
<固有表現抽出部110>
入力:(公開されている)テキストデータ
出力:K種類の固有表現(固有表現リスト)
固有表現抽出部110は、Web上のテキストデータなどのテキストデータの中から固有表現を抽出し、正式名称の省略表現の候補としてリスト化する(S110)。つまり、固有表現リストを生成する。固有表現抽出部110は、例えば、参考非特許文献1の技術を用いて構成することができる。ただし、これに限定されるものではなく、任意の固有表現抽出技術を用いてよい。
(参考非特許文献1:工藤 拓、松本 裕治,“チャンキングの段階適用による日本語係り受け解析”,情報処理学会論文誌,Vol.43,No.6,pp.1834-1842,2002.)
抽出される固有表現には、地名、組織名などの他、人名、日付表現、時間表現、金額表現、割合表現などが含まれることがある。例えば、「今日は吉田商店に行きます。」というテキストデータから固有表現を抽出すると、「今日」、「吉田商店」という2つの固有表現が抽出される。「吉田商店」は組織名の固有表現となるが、「今日」は地名・組織名の固有表現に該当しない。つまり、一般には正式名称の省略表現として適切でないものも抽出されうる。なお、Kは1以上の整数としてよい。この例では、K=2となっている。
なお、同一の固有表現が入力したテキストデータから何度も抽出されることもあり得るが、種類としては1つとなる。したがって、固有表現抽出部110は抽出した固有表現のダブりをなくすための処理を行ってもよい。
<リスト照合部120>
入力:固有表現リスト、正式名称リスト
出力:正式名称・省略表現リスト
リスト照合部120は、K種類の固有表現を含む固有表現リストとJ種類の正式名称を含む正式名称リストから、正式名称・省略表現リストを生成する(S120)。正式名称リストは、正式名称記録部190から読み出される。正式名称・省略表現リストは、正式名称とその省略表現として正しい固有表現のペアのリストのことである。例えば、正式名称リストに「吉田商店新潟店」が含まれている場合、「吉田商店新潟店−吉田商店」が正式名称とその省略表現たる固有表現のペアとなる。また、(「吉田商店新潟店−吉田商店」,「日本電信電話株式会社−電電公社」)などがリストの例となる。
リスト照合部120は、K種類の固有表現とJ種類の正式名称の組み合わせ(つまり、K×J種類の固有表現と正式名称の組)に対して、文字表現上の照合、形態素表現上の照合の2つの照合処理を行う。したがって、文字表現照合部121、形態素表現照合部122による各処理は、K×J回行われることになる。最後に、正式名称・省略表現リスト生成部123は、2つの照合結果に基づいて正式名称・省略表現リストを生成する。
以下、文字表現照合部121、形態素表現照合部122、正式名称・省略表現リスト生成部123について説明する。
<文字表現照合部121>
入力:固有表現、正式名称
出力:固有表現、正式名称、文字表現照合結果(TRUE/FALSE)の組
文字表現照合部121は、正式名称の文字列からいくつかの文字を削除することで、固有表現の文字列と一致する文字列が生成できる場合、固有表現は正式名称の省略表現の候補であると判断してTRUEを、そうでない場合はFALSEを文字表現照合結果として生成する(S121)。
ここで、固有表現の文字列(文字表現)をC=c・c・…・c(ただし、nは1以上の整数、c(1≦i≦n)は文字)、正式名称の文字列(文字表現)をD=d・d・…・d(ただし、mは1以上の整数(n<m)、d(1≦j≦m)は文字)とする。つまり、固有表現Cにはn個の文字が、正式名称Dにはm個の文字が含まれているとする。例えば、固有表現Cが「吉田商店」であれば、c=「吉」、c=「田」、c=「商」、c=「店」となり、n=4となる。
固有表現C、正式名称Dに対して、1≦k<…<k≦mを満たすインデックス(k,…,k)が存在し、すべての1≦i≦nについてc=dk_iとなるとき、すなわち、固有表現Cのすべての文字が正式名称Dの文字としてこの順に含まれるときに、固有表現Cは正式名称Dの省略表現の可能性があると判断し、TRUEという文字表現照合結果を生成する。一方、このようなインデックス(k,…,k)が存在しない場合は、文字表現照合結果をFALSEとする。
また、dk_i(1≦i≦n)のうちR%の文字は互いに隣接する文字でなければ固有表現Cは正式名称Dの省略表現としてみなさないという制約を課してもよい。この制約は、省略表現には正式名称の隣接する文字が一定割合出現することに対応するものである。この制約を満たさない場合は、上記インデックスが存在する場合であっても、文字表現照合結果をFALSEとする。例えば、Rの値を50とすると、半数以上が隣接する文字とならないと、正式名称の省略表現の候補とならないことになる。
<形態素表現照合部122>
入力:固有表現、正式名称、文字表現照合結果(TRUE/FALSE)の組
出力:固有表現、正式名称、形態素表現照合結果(TRUE/FALSE)の組
形態素表現照合部122は、文字表現照合結果がFALSEの場合は、形態素表現照合結果もFALSEとする。一方、文字表現照合結果がTRUEの場合は、正式名称の形態素列からいくつかの形態素を削除することで、固有表現の形態素列と一致する形態素の列が生成できる場合、固有表現は正式名称の省略表現であると判断してTRUEを、そうでない場合はFALSEを形態素表現照合結果として生成する(S122)。
ここで、固有表現Cの形態素列(つまり、Cを形態素に分割し、生成できる列である形態素表現)をC・C・…・C(ただし、Nは1以上の整数、C(1≦i≦N)は形態素)、正式名称Dの形態素列(つまり、Dを形態素に分割し、生成できる列である形態素表現)をD・D・…・D(ただし、Mは1以上の整数(N<M)、D(1≦j≦M)は形態素)する。例えば、固有表現Cが「吉田商店」であれば、C=「吉田」、C=「商店」となり、N=2となる。
固有表現Cと正式名称Dに対して、1≦K<…<K≦Mを満たすインデックス(K,…,K)が存在し、すべての1≦i≦NについてC=DK_iとなるとき、すなわち、固有表現Cのすべての形態素が正式名称Dの形態素としてこの順に含まれるときに、固有表現Cは正式名称Dの省略表現であると判断し、TRUEという形態素表現照合結果を生成する。一方、このようなインデックス(K,…,K)が存在しない場合は、形態素表現照合結果をFALSEとする。
なお、形態素解析処理には、例えば、参考非特許文献2の技術を用いることができる。ただし、これに限定されるものではなく、任意の形態素解析技術を用いてよい。
(参考非特許文献2:T. Fuchi and S. Takagi, “Japanese morphological analyzer using word co-occurrence: JTAG”, In Proc. COLING ’98, pp.409-413, 1998.)
また、形態素解析に際して、単語の品詞情報もあわせて得ることができる場合、その品詞情報を含めて形態素の間に対応関係があるかどうかを判断し、形態素照合結果を生成することとしてもよい。つまり、C=DK_i(1≦i≦N)となるCとDK_iとの品詞情報に対応関係があるとき、形態素照合結果をTRUEとする。品詞情報とは、例えば、固有名詞(例:吉田)、普通名詞(例:商店)などである。また、対応関係があるとは、一致することをいう。
<正式名称・省略表現リスト構成部123>
入力:固有表現、正式名称、形態素表現照合結果(TRUE/FALSE)の組
出力:正式名称・省略表現リスト
正式名称・省略表現リスト構成部123は、K×J個の固有表現、正式名称、形態素表現照合結果の組の中から、形態素表現照合結果がTRUEとなっている固有表現と正式名称の組を抽出し、正式名称・省略表現リストを生成する(S123)。正式名称・省略表現リストは、形態素表現照合結果がTRUE(したがって、文字表現照合結果もTRUE)となった、正式名称と固有表現のペアのリストである。
なお、1つの省略表現に対応する正式名称が複数存在する場合、そのことを許容してリスト化が行われることになる。
<実施形態2>
実施形態1では、固有表現が正式名称の省略表現となっているかを2つの観点から照合することで判断している。つまり、文字表現照合部121では、文字を単位として順序も考慮したうえで「すべての文字が含まれるかどうか」という観点から照合し、形態素表現照合部122では、形態素を単位として順序も考慮したうえで「すべての形態素が含まれるかどうか」という観点から照合している。これは、固有表現Cと正式名称Dとの対応が形態素としてみたときも無意味な対応であってはならないという要請にこたえるものである。
しかし、当該要請を考慮せず、単に文字を単位として照合するだけで十分な場合もある。この場合は、文字表現照合部121がTRUEと判断した固有表現と正式名称の組から、正式名称・省略表現リスト構成部123が正式名称・省略表現リストを生成するようにすればよい(図5、図6参照)。
<文字表現照合部121>
入力:固有表現、正式名称
出力:固有表現、正式名称、文字表現照合結果(TRUE/FALSE)の組
文字表現照合部121は、正式名称の文字列からいくつかの文字を削除することで、固有表現の文字列と一致する文字列が生成できる場合、固有表現は正式名称の省略表現であると判断してTRUEを、そうでない場合はFALSEを文字表現照合結果として生成する(S121)。
<正式名称・省略表現リスト構成部123>
入力:固有表現、正式名称、文字表現照合結果(TRUE/FALSE)の組
出力:正式名称・省略表現リスト
正式名称・省略表現リスト構成部123は、K×J個の固有表現、正式名称、文字表現照合結果の組の中から、文字表現照合結果がTRUEとなっている固有表現と正式名称の組を抽出し、正式名称・省略表現リストを生成する(S123)。
本発明によれば、正式名称と実際に世の中で使われたことがある省略表現のペアを要素とするリストを生成することができる。作成したリストを音声認識に適用する場合、省略表現を音声認識器の辞書に追加することになるが、実際に使われたことがある省略表現のみを辞書に追加することが可能となる。省略表現が辞書に追加されることにより、音声認識性能の向上が期待できる。また、実際に使われたことがない省略表現は追加対象とならないため、無駄に辞書サイズを増やすことを避けることもできる。
なお、地名・組織名などを念頭に説明を行ってきたが、本発明は、地名・組織名の正式名称と省略表現の候補である固有表現に限定されるものではない。正式名称と固有表現が文字列解析や形態素解析の対象となるものであれば、本発明を適用することが可能である。
また、本発明は省略表現の候補を絞る方法と考えることもできるため、当該方法で候補を絞った後に、非特許文献1の技術を適用することも可能であり、この場合は、相乗効果を得ることができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
100 固有表現抽出機能付正式名称・省略表現リスト生成装置
105 正式名称・省略表現リスト生成装置
110 固有表現抽出部
120 リスト照合部
121 文字表現照合部
122 形態素表現照合部
123 正式名称・省略表現リスト生成部
190 正式名称記録部

Claims (8)

  1. 正式名称記録部に記録された正式名称のリストである正式名称リストと、前記正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、前記正式名称と前記固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成装置であって、
    前記固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、
    前記固有表現リストの要素である固有表現Cが前記正式名称リストの要素である正式名称の省略表現になっているか判断し、前記固有表現Cが前記正式名称リストのある正式名称Dの省略表現になっている場合には、前記正式名称Dと前記固有表現Cのペアを要素とするリストである正式名称・省略表現リストを生成するリスト照合部と
    を含む正式名称・省略表現リスト生成装置。
  2. 正式名称記録部に記録された正式名称のリストである正式名称リストと、前記正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、前記正式名称と前記固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成装置であって、
    前記固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、
    前記固有表現の文字表現をC=c・c・…・c(ただし、nは1以上の整数、c(1≦i≦n)は文字)、前記正式名称の文字表現をD=d・d・…・d(ただし、mは1以上の整数(n<m)、d(1≦j≦m)は文字)とし、
    前記固有表現Cと前記正式名称Dに対して、1≦k<…<k≦mを満たすインデックス(k,…,k)が存在し、すべての1≦i≦nについてc=dk_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現であると判断する文字表現照合部と、
    前記文字表現照合部により前記正式名称Dの省略表現であると判断された前記固有表現Cと前記正式名称Dから、前記正式名称Dと前記固有表現Cのペアを生成し、当該ペアを要素とする前記正式名称・省略表現リストを生成する正式名称・省略表現リスト生成部と
    を含む正式名称・省略表現リスト生成装置。
  3. 正式名称記録部に記録された正式名称のリストである正式名称リストと、前記正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、前記正式名称と前記固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成装置であって、
    前記固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、
    前記固有表現の文字表現をC=c・c・…・c(ただし、nは1以上の整数、c(1≦i≦n)は文字)、前記正式名称の文字表現をD=d・d・…・d(ただし、mは1以上の整数(n<m)、d(1≦j≦m)は文字)、前記固有表現の形態素表現をC=C・C・…・C(ただし、Nは1以上の整数、C(1≦i≦N)は形態素)、前記正式名称の形態素表現をD=D・D・…・D(ただし、Mは1以上の整数(N<M)、D(1≦j≦M)は形態素)とし、
    前記固有表現Cと前記正式名称Dに対して、1≦k<…<k≦mを満たすインデックス(k,…,k)が存在し、すべての1≦i≦nについてc=dk_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現の可能性があると判断する文字表現照合部と、
    前記文字表現照合部により前記正式名称Dの省略表現の可能性があると判断された前記固有表現Cと前記正式名称Dに対して、1≦K<…<K≦Mを満たすインデックス(K,…,K)が存在し、すべての1≦i≦NについてC=DK_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現であると判断する形態素表現照合部と、
    前記形態素表現照合部により前記正式名称Dの省略表現であると判断された前記固有表現Cと前記正式名称Dから、前記正式名称Dと前記固有表現Cのペアを生成し、当該ペアを要素とする前記正式名称・省略表現リストを生成する正式名称・省略表現リスト生成部と
    を含む正式名称・省略表現リスト生成装置。
  4. 請求項2または3に記載の正式名称・省略表現リスト生成装置であって、
    前記文字表現照合部は、
    さらに、文字dk_i(1≦i≦n)が所定の割合以上前記正式名称Dの中で隣接する文字となっているという条件も満たすときに、前記固有表現Cは前記正式名称Dの省略表現であるまたは省略表現の可能性があると判断する正式名称・省略表現リスト生成装置。
  5. 請求項3に記載の正式名称・省略表現リスト生成装置であって、
    前記形態素表現照合部は、
    さらに、すべての1≦i≦Nについて形態素Cと形態素DK_iの品詞情報に対応関係があるという条件も満たすときに、前記固有表現Cは前記正式名称Dの省略表現であると判断する正式名称・省略表現リスト生成装置。
  6. 正式名称のリストである正式名称リストを記録した正式名称記録部を備えた正式名称・省略表現リスト生成装置が、前記正式名称リストと、前記正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、前記正式名称と前記固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成方法であって、
    前記固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、
    前記固有表現の文字表現をC=c・c・…・c(ただし、nは1以上の整数、c(1≦i≦n)は文字)、前記正式名称の文字表現をD=d・d・…・d(ただし、mは1以上の整数(n<m)、d(1≦j≦m)は文字)とし、
    前記正式名称・省略表現リスト生成装置が、前記固有表現Cと前記正式名称Dに対して、1≦k<…<k≦mを満たすインデックス(k,…,k)が存在し、すべての1≦i≦nについてc=dk_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現であると判断する文字表現照合ステップと、
    前記正式名称・省略表現リスト生成装置が、前記文字表現照合ステップにより前記正式名称Dの省略表現であると判断された前記固有表現Cと前記正式名称Dから、前記正式名称Dと前記固有表現Cのペアを生成し、当該ペアを要素とする前記正式名称・省略表現リストを生成する正式名称・省略表現リスト生成ステップと
    を含む正式名称・省略表現リスト生成方法。
  7. 正式名称のリストである正式名称リストを記録した正式名称記録部を備えた正式名称・省略表現リスト生成装置が、前記正式名称リストと、前記正式名称の省略表現の候補となる固有表現のリストである固有表現リストとから、前記正式名称と前記固有表現のペアを要素とするリストである正式名称・省略表現リストを生成する正式名称・省略表現リスト生成方法であって、
    前記固有表現リストは、公開されているテキストデータから抽出した固有表現のリストであり、
    前記固有表現の文字表現をC=c・c・…・c(ただし、nは1以上の整数、c(1≦i≦n)は文字)、前記正式名称の文字表現をD=d・d・…・d(ただし、mは1以上の整数(n<m)、d(1≦j≦m)は文字)、前記固有表現の形態素表現をC=C・C・…・C(ただし、Nは1以上の整数、C(1≦i≦N)は形態素)、前記正式名称の形態素表現をD=D・D・…・D(ただし、Mは1以上の整数(N<M)、D(1≦j≦M)は形態素)とし、
    前記正式名称・省略表現リスト生成装置が、前記固有表現Cと前記正式名称Dに対して、1≦k<…<k≦mを満たすインデックス(k,…,k)が存在し、すべての1≦i≦nについてc=dk_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現の可能性があると判断する文字表現照合ステップと、
    前記正式名称・省略表現リスト生成装置が、前記文字表現照合ステップにより前記正式名称Dの省略表現の可能性があると判断された前記固有表現Cと前記正式名称Dに対して、1≦K<…<K≦Mを満たすインデックス(K,…,K)が存在し、すべての1≦i≦NについてC=DK_iとなるとき、前記固有表現Cは前記正式名称Dの省略表現であると判断する形態素表現照合ステップと、
    前記正式名称・省略表現リスト生成装置が、前記形態素表現照合ステップにより前記正式名称Dの省略表現であると判断された前記固有表現Cと前記正式名称Dから、前記正式名称Dと前記固有表現Cのペアを生成し、当該ペアを要素とする前記正式名称・省略表現リストを生成する正式名称・省略表現リスト生成ステップと
    を含む正式名称・省略表現リスト生成方法。
  8. 請求項1ないし5のいずれか1項に記載の正式名称・省略表現リスト生成装置としてコンピュータを機能させるためのプログラム。
JP2016163366A 2016-08-24 2016-08-24 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム Active JP6651183B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016163366A JP6651183B2 (ja) 2016-08-24 2016-08-24 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016163366A JP6651183B2 (ja) 2016-08-24 2016-08-24 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2018032187A true JP2018032187A (ja) 2018-03-01
JP6651183B2 JP6651183B2 (ja) 2020-02-19

Family

ID=61303548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016163366A Active JP6651183B2 (ja) 2016-08-24 2016-08-24 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム

Country Status (1)

Country Link
JP (1) JP6651183B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04130578A (ja) * 1990-09-20 1992-05-01 Fujitsu Ltd 未登録語検索方法および装置
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JPH11328166A (ja) * 1998-05-15 1999-11-30 Brother Ind Ltd 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US20080033714A1 (en) * 2002-08-07 2008-02-07 Itt Manufacturing Enterprises, Inc. Acronym Extraction System and Method of Identifying Acronyms and Extracting Corresponding Expansions from Text
JP2009109758A (ja) * 2007-10-30 2009-05-21 Nissan Motor Co Ltd 音声認識辞書生成装置及び方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04130578A (ja) * 1990-09-20 1992-05-01 Fujitsu Ltd 未登録語検索方法および装置
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JPH11328166A (ja) * 1998-05-15 1999-11-30 Brother Ind Ltd 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US20080033714A1 (en) * 2002-08-07 2008-02-07 Itt Manufacturing Enterprises, Inc. Acronym Extraction System and Method of Identifying Acronyms and Extracting Corresponding Expansions from Text
JP2009109758A (ja) * 2007-10-30 2009-05-21 Nissan Motor Co Ltd 音声認識辞書生成装置及び方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
志賀 健太 外2名: "地域情報の音声認識のための固有名詞省略表現の自動生成", 電子情報通信学会技術研究報告, vol. 第115巻第184号, JPN6019022191, 14 August 2015 (2015-08-14), JP, pages 7 - 12, ISSN: 0004055135 *
田中 友樹 外5名: "形態素間の優先関係を考慮した略語生成手法", WEBとデータベースに関するフォーラム 情報処理学会シンポジウムシリーズ VOL.2012 NO.5, vol. 第2012巻第5号, JPN6019022202, 20 November 2012 (2012-11-20), JP, pages 1 - 8, ISSN: 0004055138 *
竹元 義美 外2名: "辞書およびパターンマッチルールの増強と品質強化に基づく日本語固有表現抽出", 情報処理学会論文誌, vol. 第42巻第6号, JPN6019022197, 15 June 2001 (2001-06-15), JP, pages 1580 - 1591, ISSN: 0004055137 *
酒井 浩之,増山 繁: "企業の業績発表記事からの業績要因の抽出", 言語処理学会第13回年次大会発表論文集, JPN6019022189, 19 March 2007 (2007-03-19), JP, pages 436 - 439, ISSN: 0004055134 *
酒井 浩之,増山 繁: "略語とその原形語との対応関係のコーパスからの自動獲得手法の改良", 自然言語処理, vol. 第12巻第5号, JPN6019022194, 10 October 2005 (2005-10-10), JP, pages 207 - 231, ISSN: 0004055136 *

Also Published As

Publication number Publication date
JP6651183B2 (ja) 2020-02-19

Similar Documents

Publication Publication Date Title
Phatthiyaphaibun et al. Pythainlp: Thai natural language processing in python
US20190155944A1 (en) Method and system for key phrase extraction and generation from text
JP2020087353A (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
US9984064B2 (en) Reduction of memory usage in feature generation
JP7272060B2 (ja) 生成方法、学習方法、生成プログラム、及び生成装置
JP7246027B2 (ja) 翻訳装置、翻訳方法、及びプログラム
US11874860B2 (en) Creation of indexes for information retrieval
Scherrer et al. New developments in tagging pre-modern orthodox Slavic texts
Gupta et al. Text analysis and information retrieval of text data
US7962324B2 (en) Method for globalizing support operations
Choudhury et al. Context-sensitive spelling checker for assamese language
JP5290218B2 (ja) 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム
Pinnis et al. Tilde MT platform for developing client specific MT solutions
JP6651183B2 (ja) 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
WO2021107006A1 (ja) 情報処理装置、情報処理方法及びプログラム
März et al. Data centric domain adaptation for historical text with OCR errors
US20210073335A1 (en) Methods and systems for semantic analysis of table content
JPH11134334A (ja) 単語登録装置及び記録媒体
JP2022002034A (ja) 抽出方法、抽出プログラム、及び、抽出装置
JP2021157219A (ja) 情報処理システム、および情報処理方法
WO2019044583A1 (ja) コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
US20240281608A1 (en) Multi-task self-training for character gender identification
Abera et al. Information extraction model for afan oromo news text
JP2022148678A (ja) 言い換え文候補を提示するシステム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160824

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200110

R150 Certificate of patent or registration of utility model

Ref document number: 6651183

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250