JP2019191900A - 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム - Google Patents

言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム Download PDF

Info

Publication number
JP2019191900A
JP2019191900A JP2018083500A JP2018083500A JP2019191900A JP 2019191900 A JP2019191900 A JP 2019191900A JP 2018083500 A JP2018083500 A JP 2018083500A JP 2018083500 A JP2018083500 A JP 2018083500A JP 2019191900 A JP2019191900 A JP 2019191900A
Authority
JP
Japan
Prior art keywords
language
feature extraction
extraction
rule
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018083500A
Other languages
English (en)
Other versions
JP6799562B2 (ja
Inventor
齋藤 邦子
Kuniko Saito
邦子 齋藤
のぞみ 小林
Nozomi Kobayashi
のぞみ 小林
準二 富田
Junji Tomita
準二 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018083500A priority Critical patent/JP6799562B2/ja
Priority to US17/049,939 priority patent/US11809820B2/en
Priority to PCT/JP2019/017049 priority patent/WO2019208507A1/ja
Publication of JP2019191900A publication Critical patent/JP2019191900A/ja
Application granted granted Critical
Publication of JP6799562B2 publication Critical patent/JP6799562B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】言語ごとに考慮すべき特徴の違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができるようにする。【解決手段】言語特徴の抽出装置11は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部を備える。【選択図】図1

Description

本開示は、言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラムに関する。
人間が記述したテキストや、人間の発話を音声認識した後のテキスト等を対象として、さまざまな処理を行うことで、翻訳、情報抽出などの高度な言語処理が可能となる。特に、固有表現の抽出は、文章に書かれている、「だれが」、「どこで」、「なにを」などの内容そのものを表しており、テキストの内容把握のためには重要な要素となる。固有表現の抽出に関する技術は、例えば、特許文献1に記載されている。
通常、固有表現抽出処理では、前段の処理で単語認定(形態素解析)を行い、単語表記や品詞などの単語情報を取得し、その単語情報を言語特徴(素性)として前後の単語情報の並びを考慮した固有表現抽出処理を行う。固有表現抽出処理を行う際に考慮される素性となる言語特徴としては、該単語の出現表記、品詞、原型表記、及び読みなど、前段の形態素解析処理の過程で得られる情報、すなわち形態素解析で参照する単語辞書に収録されている情報がよく使われる。
どのような素性を用いるのが固有表現抽出において有効であるかについては、言語のもともとの特徴に応じて変わってくる。例えば、英語において、「Apple」と「apple」とでは、前者が固有名(組織名)、後者が一般名詞(リンゴ)と考えるのが自然であり、大文字・小文字の使われ方の違いが大きな特徴となるが、日本語ではこのような現象はあまり考慮する必要がない。また、英語では、「〜ing」、「〜es」、「〜ed」など、単語内の語尾数文字列の情報で、単語の種類をある程度一般化できる。さらに英語では、数字や記号から成る単語なのか、アルファベットだけからなる単語なのか等のような単語の文字種の情報についても考慮した素性を用いることが有効であると考えられる。しかし、このような単語内の大文字・小文字の状況や、単語内の一部の文字列情報、及び単語の文字種の情報は、前段の形態素解析処理の中では通常取得できない。また、英語では必要な素性情報が、日本語ではそれほど重要でなく、取得する必要がない、すなわち、言語によって考慮したい素性は大きく変わってくることが予想される。
このような状況においては、複数の言語を統一的に扱える固有表現抽出の実現において、もともとの言語の特徴に応じて、自由に考慮すべき素性の設計が行える仕組みが必要となる。
特許第4005477号
単一の言語だけでなく、複数の言語を対象として、同じ処理系で固有表現抽出を行う場合、言語ごとに考慮すべき特徴の種類が大きく違うケースがある、という課題がある。もっとも単純なケースでは、前段の形態素解析処理が出力する、単語情報、例えば、表記と品詞のみを考慮する、ということも考えられる。しかし、より複雑なケースの場合、表記の中の、大文字の有無、単語内の文字の並びなど、形態素解析結果としては直接得られない情報を取得することが必要になるケースもある。
本開示は、上記の点に鑑みてなされたものであり、複数の言語を対象として固有表現抽出するにあたり、言語によって着目する特徴が異なる場合でも統一的な処理系による固有表現抽出を言語ごとに考慮すべき特徴の違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができる、固有表現の抽出装置、抽出方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本開示の第1の態様の言語特徴の抽出装置は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部を備える。
また、上記目的を達成するために、本開示の第2の態様の固有表現の抽出装置は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部と、前記複数の対象言語に共通の機械学習アルゴリズムを用い、前記複数の対象言語ごとに、言語特徴抽出結果を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデルと、前記言語特徴抽出部から出力された言語特徴抽出結果を入力として、前記入力文の言語に対応する前記固有表現抽出モデルを用いて、固有表現抽出処理を実行し、抽出した固有表現を出力する固有表現抽出部と、を備える。
本開示の第3の態様の固有表現抽出装置は、第1の態様または第2の態様の抽出装置において、前記抽象ルールの集合は、単語内の文字状況の特徴を捉えるためのルール、単語情報を別の観点で置き換えるためのルール、及び言語ごとに有用な特徴量の取捨選択を実現するためのルールからなる。
本開示の第4の態様の抽出装置は、第1の態様または第2の態様の抽出装置において、前記抽象ルールの集合は、任意の箇所の部分文字列を抽出するためのルール、任意の箇所の部分文字列の置換、挿入、及び削除の少なくとも一つを行って文字列を抽出するためのルール、所定のパタンにマッチする表現に対し、特定のラベル情報を付与するためのルール、及び所定のパタンにマッチする表現か否かを判定するためのルールを含む。
上記目的を達成するために、本開示の第5の態様の抽出方法は、言語特徴抽出部が、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力するステップを含む言語特徴の抽出方法である。
上記目的を達成するために、本開示の第6の態様の抽出方法は、言語特徴抽出部が、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力するステップと、固有表現抽出部が、前記複数の対象言語に共通の機械学習アルゴリズムを用い前記複数の対象言語ごとに、言語特徴抽出結果を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデルであって、かつ前記入力文の言語に対応する前記固有表現抽出モデルを用いて、前記言語特徴抽出部から出力された言語特徴抽出結果を入力として固有表現抽出処理を実行し、抽出した固有表現を出力するステップと、を含む固有表現の抽出方法である。
上記目的を達成するために、本開示の第7の態様のプログラムは、コンピュータを、第1の態様から第4の態様のいずれか1態様に記載の抽出装置の各部として機能させるためのプログラムである。
本開示によれば、言語ごとに考慮すべき特徴に対応し、尚且つその違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができる、という効果が得られる。
実施形態の固有表現の抽出装置の一例の構成を示す構成図である。 言語が英語である場合の入力文の一例である。 言語が日本語である場合の入力文の一例である。 入力文の言語が英語である場合に、実施形態の固有表現の抽出装置の形態素解析部から出力される形態素解析結果の一例を示した図である。 入力文の言語が日本語である場合に、実施形態の固有表現の抽出装置の形態素解析部から出力される形態素解析結果の一例を示した図である。 言語が英語である場合の言語別特徴抽出ルールの一例を示した図である。 言語が日本語である場合の言語別特徴抽出ルールの一例を示した図である。 入力文の言語が英語である場合に、実施形態の固有表現の抽出装置の言語特徴抽出部により出力される言語特徴抽出結果の一例を示した図である。 入力文の言語が日本語である場合に、実施形態の固有表現の抽出装置の言語特徴抽出部により出力される言語特徴抽出結果の一例を示した図である。 入力文の言語が英語である場合に、実施形態の固有表現の抽出装置から出力される出力の一例を示した図である。 入力文の言語が日本語である場合に、実施形態の固有表現の抽出装置から出力される出力の一例を示した図である。 実施形態の固有表現の抽出装置で実行される固有表現抽出処理ルーチンの一例を示すフローチャートである。
以下、図面を参照して本開示の実施形態を詳細に説明する。なお、一般に、言語処理技術において、言語の特徴量は「素性」とも呼ばれる。本開示では、言語が有するもともとの特徴については「特徴」といい、固有表現抽出のために抽出される特徴量については「素性」という。
<本実施形態の概要>
本開示は、複数の言語を固有表現抽出するにあたり、言語によって着目する特徴が異なる場合でも統一的な処理系で固有表現抽出するために以下の(1)〜(3)の構成で固有表現の抽出装置を実現する。
(1)言語に応じた形態素解析処理を実行し、形態素解析結果を出力する。
(2)形態素解析結果に対し、言語別に当該言語の特徴に応じて設けられた抽出ルールを参照して、言語特徴抽出処理を実行して素性を抽出し、言語特徴抽出結果として出力する。
(3)言語特徴抽出結果に対し、固有表現抽出処理を行い、抽出結果である固有表現を出力する。
ここで、言語ごとの特徴を吸収するのは、上記(2)の言語特徴抽出処理であり、ここでの特徴の取り出し方は各言語によって設定を変える。その言語ごとの特徴の取り出し方は、抽出ルールで規定する。上記(3)の固有表現抽出処理自体は、言語依存はなく、(2)の言語特徴抽出処理の結果により得られる、言語特徴抽出結果に対して同一の処理系で動くものとする。なお、本実施形態では、上記(1)の形態素解析処理には既存の形態素解析技術を用いる。本実施形態によれば、各言語に対応する任意の形態素解析技術を導入することができ、その後段の処理に上記(2)及び(3)の処理を追加することで、多言語に対応する固有表現の抽出装置を実現できる。
<本実施形態の固有表現の抽出装置の構成>
次に、本実施形態の固有表現の抽出装置の構成について説明する。図1には、本実施形態の固有表現の抽出装置10の一例の構成を表す構成図を示す。図1に示した本実施形態の固有表現の抽出装置10は、テキストである入力文9を解析し、入力文9から人名、地名、組織名、及び商品名などの固有表現を抽出する。
図1に示すように、本実施形態の固有表現の抽出装置10は、言語特徴の抽出装置11、形態素解析部12、固有表現抽出部16、及び固有表現抽出モデル17を備える。言語特徴の抽出装置11は、言語特徴抽出部14及び言語別特徴抽出ルール18を含む。
図1に示した本実施形態の固有表現の抽出装置10は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する固有表現抽出処理ルーチンを実行するためのプログラムや各種データを記憶したROM(Read Only Memory)と、を含むコンピュータで構成することができる。具体的には、上記プログラムを実行したCPUが、図1に示した固有表現の抽出装置10の言語特徴の抽出装置11(言語特徴抽出部14)、形態素解析部12、及び固有表現抽出部16として機能する。
固有表現の抽出装置10の形態素解析部12には、装置の外部から入力文9が入力される。以下、具体例として、固有表現の抽出装置10に、図2Aに例示した言語が英語の場合の入力文9A(「NTT Media Intelligence Labs. was established in 2012.」)、または図2Bに例示した言語が日本語である入力文9B(「NTT メディアインテリジェンス研究所は横須賀市にあります。」)が入力された場合を説明する。
形態素解析部12は、入力された入力文9に対し、形態素解析処理を実行し、形態素解析結果13を出力する。形態素解析処理には、既存の任意の形態素解析技術を利用することができる。なお、形態素解析部12は、入力文9の言語に応じて、英語であれば英語用、日本語であれば日本語用の形態素解析技術を用いる。形態素解析処理によれば、入力文9を単語に分割し、品詞、及び原型など、単語情報を付加された状態の形態素解析結果13が出力として得られる。換言すると、各言語の形態素解析結果13とは、入力文9を構成する形態素ごとの、表記、品詞、原型表記、及び読み等の対からなる。なお、形態素解析結果13として、これらのうち、「表記」及び「品詞」は必須であるが、「原型表記」及び「読み」は必須としていない。
例えば、形態素解析部12が、図2Aに例示した入力文9Aに対して形態素解析処理を実行した場合、図3Aに例示した形態素解析結果13Aが得られる。具体的には、図3Aに示されるように、形態素解析結果13Aとして、「NTT/NNP」、「Media/NN」、「Intelligence/NN」、「Labs./NNP」、「was/VBD」、「establishd/VBN」、「in/IN」、「2012/CD」、及び「./.」が得られる。なお、「NNP」は固有名詞を表し、「NN」は単数形の名詞を表し、「VBD」は過去時制の動詞を表し、「IN」は前置詞または縦続接続詞を表し、「CD」は基数を表し、「.」は句点を表す。
また例えば、形態素解析部12が、図2Bに例示した入力文9Bに対して形態素解析処理を実行した場合、図3Bに例示した形態素解析結果13Bが得られる。具体的には、図3Bに示されるように、形態素解析結果13Bとして、「NTT/名詞:固有」、「メディア/名詞」、「インテリジェンス/名詞」、「研究所/名詞接尾辞:名詞」、「は/助詞」、「横須賀/名詞:固有」、「市/名詞接尾辞:名詞」、「に/助詞」、「あ/動詞語幹:R」、「り/動詞活用語尾」、「ます/動詞接尾辞」、及び「。/句点」が得られる。
言語特徴抽出部14には、形態素解析部12から出力された形態素解析結果13が入力される。言語特徴抽出部14は、言語別特徴抽出ルール18を参照しながら、素性を抽出する言語特徴処理を実行し、言語特徴抽出結果15を出力する。
本実施形態では、一例として言語別特徴抽出ルール18には、抽象ルールの一例である以下のルールA〜Fを用いて記述された抽出ルール、及び後述する出力ルールが含まれる。本実施形態の言語別特徴抽出ルール18では、これら抽象ルールにより、以下の(I)〜(III)が実現される。
(I)大文字小文字、単語内文字、特定文字または文字列の有無、及び文字種等の単語内の文字状況の特徴を捉える。
(II)表記や品詞等の単語情報を、単語タイプ、品詞などのカテゴリの上/下位概念化、及び辞書などの外部知識を参照して、別の観点で置き換える。
(III)言語ごとに有用な特徴量の取捨選択。
言語特徴抽出部14は、形態素解析結果(表記:%form、品詞:%pos等。詳細後述)の何れかを対象:targetとする、以下のルールA〜Fを用いて記述された言語別特徴抽出ルール18であって入力文9の言語に対応する言語別特徴抽出ルール18に基づいて、形態素解析結果13から素性の抽出を行う。素性の抽出は、形態素ごと(すなわち、図3の1行ごと)に処理を行う。また、素性の抽出時には、表記は%form、品詞は%posという変数の値を各形態素結果から取得して処理を行う。なお、本実施形態では、言語別特徴抽出ルール18が、ルールA〜Fを用いて記述される場合を例に説明するが、これらのうち、ルールE、Fを用いることは必須ではない。
ルールA:任意の箇所の部分文字列を抽出するためのルール(「Substr」と表記される)。
ルールB:任意の箇所の部分文字列を、置換/挿入/削除を行って抽出するためのルール(「RegexReplace」と表記される)。
ルールC:所定のパタンにマッチする表現に対し、特定のラベル情報を付与するためのルール(「RegexMatch」と表記される)。
ルールD:所定のパタンにマッチする表現か否かを判定するためのルール(「IsContain」と表記される)。
ルールE:辞書情報(外部データ)を参照するためのルール(「Dic」と表記される)。
ルールF:抽出情報を初期化するためのルール(「SetValue」と表記される)。
ここで、上記ルールA〜Fを用いて記述された抽出ルールに従って、形態素解析結果13から抽出した情報に対し、出力ルール(図4A及び図4B参照)を用いて最終的に素性として用いる情報や、そのフォーマットを設定するようにしてもよい。
前述したように、言語ごとに着目したい特徴は異なるため、言語別特徴抽出ルール18は言語別に前記ルールA〜Fの何れか(少なくとも1つ以上)を用いて記述されるものとする。図4Aには、言語が英語である場合の言語別特徴抽出ルール18である、英語用の言語別特徴抽出ルール18Aの一例を示す。また、図4Bには、言語が日本語である場合の言語別特徴抽出ルール18である、日本語用の言語別特徴抽出ルール18Bの一例を示す。
言語特徴抽出処理では、形態素解析結果13に含まれる単語表記(%form)や品詞(%pos)を活用し、これを元に文字列処理や辞書引きを行うことを想定している。図4A及び図4Bに示す言語特徴抽出ルールは、言語特徴抽出部14で実施する言語特徴抽出処理を概念的に表したものであり、この表現方法は任意の形式でよく、またプログラム上はこの表現から正規表現に基づく文字列検索や、%formの値による辞書検索などの処理に変換して実施するものとする。
以上のように、共通化したルールの集合を定義しておくことで、対象とする各言語の特徴に応じてルールの集合からルールを選択し、処理対象言語に合わせた具体的な言語特徴抽出ルールの定義を行うことができる。また、最終的に素性として出力する際の出力ルールにおいて、各素性を出力するか否かの定義や、出力フォーマットの指定(素性間の区切り文字を”/”とする、等)を記述可能にすることで、各言語の素性、及びその種類数のコントロールや、書式の統一を容易に設定できる。
このように、考慮すべき素性の設計や管理が自由・柔軟・容易に行えて、かつ統一性のある素性抽出結果が出力できる仕組みを導入することで、言語ごとに考慮すべき特徴の違いをうまく吸収し、後段の固有表現抽出部16における処理の共通化を実現することが可能となる。
まず、図4Aに例示した、英語用の言語別特徴抽出ルール18Aについて詳細に説明する。
言語別特徴抽出ルール18Aの抽出ルール1〜5は上記のルールAを用いて記述される。抽出ルール1〜5において「Substr」は、「Substr=target,key,開始バイト位置,バイト数」で表現される。
抽出ルール1の場合、target(ここでは単語表記%form)に対して開始バイト位置(0バイト目)からバイト数(1バイト分)を部分文字列として取り出し、key(ここでは%pre1)に記憶することを意味する。例えば、「NTT」という表記の場合、抽出ルール1によれば、「N」という部分文字列が取り出されて、%pre1に格納される。抽出ルール2の場合、先頭から2バイト分取り出され、%pre2=NTとなる。
一方、抽出ルール3〜5の場合では、開始バイト位置が−1(=末尾)となり、そこから、1バイト分、2バイト分、及び3バイト分が各々取り出されて、それぞれ%suf1、%suf2、及び%suf3に格納される。例えば「playing」という表記であれば、%suf1=g、%sufs2=ng、%sufs2=ingが各々格納される。このように、抽出ルール1〜5により、単語表記の任意の箇所の部分文字列を取り出すことができる。
なお、この例では単語の先頭または末尾からの数文字に着目する抽出ルールとしたが、言語の特徴によっては、単語の両端ではなく中央部分に着目する抽出ルールを設計しても良い。いずれにしても、単語全体の表記ではなく、一部の文字列に着目する抽出ルールが設定できることが重要である。
また、言語別特徴抽出ルール18Aの抽出ルール6は上記のルールFを用いて記述される。抽出ルール6において「SetValue」は、「SetValue=key,value」で表現されkeyに対してvalueを設定する。
抽出ルール6では、単語タイプを表すkeyとして%typeに<else>を設定する。
また、言語別特徴抽出ルール18Aの抽出ルール7〜10は、上記のルールCを用いて記述される。抽出ルール7〜10において「RegexMatch」は、「RegexMatch=target,条件,key,value」で表現され、targetが条件にマッチした場合にkeyに対してvalueを設定する。抽出ルール7の場合、単語表記(%form)に小文字の英字だけが含まれる場合は、%typeに<alpha>を設定する。抽出ルール8〜10の場合では、各々、大文字の英字だけが含まれれば%typeに<ALPHA>、先頭だけ大文字でそれ以降小文字であれば%typeに<Alpha>、数字が含まれれば%typeに<NUM>を設定する。
抽出ルール6〜10により、単語に含まれる文字に応じて、<alpha>、<ALPHA>、<Alpha>、<NUM>、及び<else>の5種類の分類ができる。
また、言語別特徴抽出ルール18Aの抽出ルール11は上記のルールDを用いて記述される。抽出ルール11において「IsContain」は、「IsContain=target,条件,key,value1,value2」で表現され、targetが条件に指定する文字を含む場合にkeyにvalue1を設定し、含まなければvalue2を設定する。
抽出ルール11の場合では、単語表記(%form)にハイフン「−」が含まれる場合は、%hyphenに「1」を設定し、そうでない場合は「0」を設定する。この抽出ルールにより、形態素解析結果に特定の文字が含まれるか否かを特徴として検知することができる。例えば、「mid-December」、「al-Jazeera」、及び「late-Qing」などのようにハイフン「−」を含んで複合語のようになる英語表現は数多くある。このような複合語は、組み合わせの種類が膨大にあるため、全ての出現パタンが学習データに存在することは期待できない。そのため、ハイフンの有無という特徴をとらえておくことで、多様なバリエーションの複合語の出現を抽象化してとらえておくことができると期待される。
また、言語別特徴抽出ルール18Aの抽出ルール12は上記のルールEを用いて記述される。抽出ルール12において「Dic」は、「Dic=辞書パス,target,value,照合タイプ」で表現され、辞書パスで提示される辞書に対して、targetをkeyとして指定する照合タイプで辞書検索し、辞書登録情報をvalueに格納する。
抽出ルール12の場合では、/path/dicの辞書に対して、単語表記%formをkeyとして最長一致の照合(LONGEST)で辞書検索し、辞書中に照合するものがあれば、その辞書登録情報を%dic_valに格納する。この抽出ルールにより、形態素解析結果から何かしらの外部情報源を参照し、そこに含まれる情報を特徴として取り出すことができる。
次に、図4Bに例示した、日本語用の言語別特徴抽出ルール18Bについて詳細に説明する。
言語別特徴抽出ルール18Bの抽出ルール13は上記のルールBを用いて記述される。抽出ルール13において「RegexReplace」は、「Regreplace=置き換え先、置き換え元、条件」で表現され、置き換え元に対して条件を適用し置き換え先に格納する。
抽出ルール13の場合では、品詞(%pos)に対して、「:」の直前までの範囲だけを取り出して改めて品詞(%pos)に置き換えることになり、例えば「動詞:サ変」という名詞であった場合は「動詞」だけが品詞として置き換わる。
以上のようにして、言語別特徴抽出ルール18を持つことにより、例えば英語に対しては単語表記から注目したい範囲の文字列を取り出したり、大文字や小文字の使われ方の違いを単語タイプとして取り出したり、特定の文字が含まれるか否か、更には外部の辞書を参照してその辞書に含まれる情報を特徴として活用したり、といった特徴抽出処理が可能となる。
上述したように言語別特徴抽出ルール18は、上述したように、上記(I)〜(III)を実現するものである。英語や多くのヨーロッパ言語は、活用語尾や格変化や、大文字小文字等、単語内の一部の変化で語の役割を変える特徴があるため、上記(I)及び(III)が用いられ、特に(I)が重要である。一方、日本語、中国語、及び韓国語などは、減速、単語の内部での語形変化がないため、上記(III)のみが用いられる。なお、言語全般について、もし上記(II)が得られる状況ならば、(II)についても追加すると良い。言語別特徴抽出ルール18は、このような、大枠のとらえ方で多くの言語を共通的に扱う仕組みをとるものである。
一方、例えば日本語では、原則、形態素解析部12における形態素解析処理で得られた情報(表記、品詞、及び原型)だけを使うという想定で、品詞だけは先頭の品詞(一番メインとなる主品詞)だけを使う、といった変換だけを行った後、出力ルールを用いて必要最低限の素性のみ抽出する、ということが可能となる。
言語特徴抽出部14では、抽出された素性を言語特徴抽出結果15として出力する。図5Aには、入力文9Aの形態素解析結果13Aに対して、図4Aに例示した言語別特徴抽出ルール18A(抽出ルール1〜12、出力ルール)に基づいて、抽出された素性を形態素単位で出力した結果を示す。また、図5Bには、入力文9Bの形態素解析結果13Bに対して、図4Bに例示した言語別特徴抽出ルール18B(抽出ルール13、出力ルール)に基づいて、抽出された素性を形態素単位で出力した結果を示す。
ここで、前述したように、入力された形態素解析結果13、及び抽出した素性の全てを固有表現抽出に利用しなくてもよい。図5A及び図5Bの例では、各々図4A及び図4Bに例示した言語別特徴抽出ルール18A、18Bに出力ルールとして定義された素性のみを最終的な素性として出力しており、例えば形態素解析結果13で得られる情報(表記、品詞、及び原型)のうち、原型の情報は出力していない。
なおここで示した抽出ルール1〜13は、単語内の部分的な文字、大文字小文字の状況など文字種による単語タイプ、及び特定の文字を含むなど、表記の文字の特徴を捉えることを想定したものである。また、品詞情報の一部や、表記から外部辞書に照合して情報を取得するものである。これらは、形態素解析部12による形態素解析処理で得られる一般的な形態素情報、すなわち、表記、品詞、及び原型といった形態素辞書情報を元にして、部分文字列のように一部を取り出したり、単語タイプのように別の観点で置き換えたりして、言語の特徴を抽出する抽出ルールとなる。このように形態素情報を元にして別の観点での特徴を捉える抽出ルールであれば、ここに例示した具体的な抽出ルール1〜13だけにとどまらず、色々な抽出ルールを設定してよい。いずれにしても、言語別に注目したい特徴は異なるため、それぞれの言語に見合った特徴を抽出できる抽出ルールを言語別特徴抽出ルール18として設定し、言語特徴抽出部14が利用する。これにより、言語別の違いを言語別特徴抽出ルール18の中で吸収することができる。
固有表現抽出部16には、言語特徴抽出部14から出力された言語特徴抽出結果15が入力される。固有表現抽出部16は、固有表現抽出処理を実行し、抽出した固有表現19を、固有表現の抽出装置10の外部に出力する。
固有表現抽出部16が用いる固有表現抽出技術としては、既存の技術を使うことができる。
固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ(略称IREX)で定義されている人名、地名、組織名、金額、日付、時間、割合、及び固有物名の8種類がある。これらの固有表現の種類をそれぞれ、<PSN>、<LOC>、<ORG>、<MNY>、<DAT>、<TIM>、<PCT>、及び<ART>で表される。本実施形態の固有表現抽出部16では、固有表現の種類として上記8種類の他、さらに、実際には固有表現でない形態素を固有表現の一種類として表すために<NIL>を追加した、9種類を抽出する固有表現の種類としている。
各固有表現は少なくとも1つの形態素から構成されることを考慮し、固有表現の冒頭の形態素とそれ以外の形態素とを識別するために、固有表現の種類に、さらに固有表現の冒頭の形態素であることを表す「B−」、及び固有表現の途中の形態素であることを表す「I−」で表す。なお、「NIL」については当該識別を行わない。
統計モデルである固有表現抽出モデル17に基づく固有表現抽出処理では、形態素解析結果13である形態素列に対して固有表現のラベル列が最も確率最大となるように統計モデルを用いて導出する。通常の固有表現抽出処理では、形態素列としては、形態素解析結果13そのもの、すなわち表記、品詞、及び原型などのみを対象とするが、本実施形態では、言語特徴抽出部14にて得られた素性を併せ持つ形態素列(言語特徴抽出結果15)を活用できる。従って、本実施形態の固有表現の抽出装置10によれば、従来技術と比較して、より豊富な言語特徴を使った固有表現抽出処理を実現できる。
なお、固有表現抽出モデル17の学習アルゴリズムとしては、既存の機械学習アルゴリズムであるサポートベクタマシン(SVM:Support Vector Machine)や条件付き確率場(CRF:Conditional Random Field)などを用いればよい。入力文9の言語として想定される複数の言語に共通の機械学習アルゴリズムを用い、言語特徴抽出結果15を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデル17を構築しておく。例えば、言語毎に、当該言語の文について得られる言語特徴抽出結果15と、予め与えられた固有表現抽出結果との組み合わせである複数の学習データを用いて、言語に共通の機械学習アルゴリズムにより、当該言語の固有表現抽出モデル17を学習する。その際、英語のように多様な言語特徴を考慮する場合、通常の表記や品詞のみを対象としたときの素性より大幅に素性の個数が増えることが予想される。素性の個数はモデルサイズに直結し、モデルサイズが大きくなりすぎると、実行するコンピュータのディスク容量を逼迫することも懸念される。その場合は、学習時に、素性の出現頻度が低いもの(たとえば出現回数が5回以下)を削除したり、素性の組合せで考慮するときの前後の形態素数(一般にウインドウサイズと呼ばれるもの)を狭めたり、複数の素性の組み合わせは考慮しない、など、素性の個数を抑える策をとり、解析精度とモデルサイズの関係を調査しながら最適の素性パタンを設定することも重要である。上記の出力ルールを用いることで、各言語の素性の数、及びその種類の数等のコントロールを容易に行うことができる。
図6Aには、入力文9Aに対応する言語特徴抽出結果15Aに基づき、固有表現抽出部16が固有表現抽出処理を行った結果出力される、固有表現19Aの一例を示す。また、図6Bには、入力文9Bに対応する言語特徴抽出結果15Bに基づき、固有表現抽出部16が固有表現抽出処理を行った結果出力される、固有表現19Bの一例を示す。
<本実施形態の固有表現の抽出装置の作用>
次に、本実施形態の固有表現の抽出装置10の作用について説明する。固有表現の抽出装置10は、入力文9が入力されると、図7に一例を示す固有表現抽出処理ルーチンを実行する。
まず、図7に示すようにステップS100で形態素解析部12は、上述したように、入力された入力文9に対して形態素解析処理を行い、形態素解析結果13を出力する。形態素解析部12から出力された形態素解析結果13は、言語特徴抽出部14に入力される。
次のステップS102で言語特徴抽出部14は、上述したように、入力された形態素解析結果13に対し、言語別特徴抽出ルール18を参照しながら、素性を抽出する言語特徴処理を実行し、抽出した素性を付与した言語特徴抽出結果15を出力する。本実施形態の言語特徴抽出部14は、言語特徴処理を実行する際、上述したように、入力文9の言語に応じたルールを用いて記述される言語別特徴抽出ルール18を参照する。言語特徴抽出部14から出力された言語特徴抽出結果15は、固有表現抽出部16に入力される。
次のステップS104で固有表現抽出部16が、上述したように、固有表現抽出処理を実行し、抽出した固有表現19を、固有表現の抽出装置10の外部に出力した後、本固有表現抽出処理を終了する。本実施形態の固有表現抽出部16は、上述したように、入力文9の言語として想定される複数の言語に共通の機械学習アルゴリズムを用い、言語特徴抽出結果15を入力として、固有表現を出力するように予め学習済みの言語別の固有表現抽出モデル17を適用した、上記言語に応じた固有表現抽出処理を実行する。
以上説明したように、本実施形態の言語特徴の抽出装置11は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルール18とし、複数の対象言語の各々に対し、言語別特徴抽出ルール18を定義し、入力文9の形態素解析結果12に対し、入力文9の言語に対して定義され、かつ形態素解析結果12に含まれる表記又は品詞に関する素性を抽出するための言語別特徴抽出ルール18を参照して、言語に応じた素性を抽出し、言語特徴抽出結果15として出力する言語特徴抽出部14を備える。
また、本実施形態の固有表現の抽出装置10は、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルール18とし、複数の対象言語の各々に対し、言語別特徴抽出ルール18を定義し、入力文9の形態素解析結果12に対し、入力文9の言語に対して定義され、かつ形態素解析結果12に含まれる表記又は品詞に関する素性を抽出するための言語別特徴抽出ルール18を参照して、言語に応じた素性を抽出し、言語特徴抽出結果15として出力する言語特徴抽出部14と、複数の対象言語に共通の機械学習アルゴリズムを用い、複数の対象言語ごとに、言語特徴抽出結果15を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデル17と、言語特徴抽出部14から出力された言語特徴抽出結果15を入力として、入力文9の言語に対応する固有表現抽出モデル17を用いて、固有表現抽出処理を実行し、抽出した固有表現を出力する固有表現抽出部16と、を備える。
このように、本実施形態の固有表現の抽出装置10では、着目する言語特徴が言語ごとに異なる場合でも、その特徴の差異を言語別特徴抽出ルール18で表現することで、処理系としては言語共通のシステムで複数の言語を扱う多言語固有表現抽出が実現できる。
従って、本実施形態の固有表現の抽出装置10によれば、言語ごとに考慮すべき特徴の違いをうまく吸収し、処理系としては共通の固有表現抽出を実現することができる。
なお、本実施形態では、予め処理対象の言語が何であるかは分かっている前提とする。処理対象となる言語にあわせて、抽出ルールと固有表現抽出モデル17を対象言語のものに切り替えるものとする。本開示と組み合わせて言語識別技術を用いることで、言語識別結果に応じた言語の抽出ルールと固有表現抽出モデル17に自動で切り替えるシステムを実現することも可能となる。
なお、本実施形態は一例であり、具体的な構成は本実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれ、状況に応じて変更可能であることは言うまでもない。
例えば、本実施形態では、言語別特徴抽出ルール18を固有表現の抽出装置10が備える形態について説明したが、言語別特徴抽出ルール18の一部または全部が、固有表現の抽出装置10の外部に備えられていてもよい。
また、本実施形態では、固有表現の抽出を例として説明を行ったが、本開示の技術は、固有表現の抽出以外のタスクにも適用可能である。例えば、形態素解析結果から単語の表記や品詞に着目した素性を抽出し、機械学習モデルにより推定や判別を行うようなタスク(例えば専門用語抽出、用語の同義性判定/多義解消など)であれば限定されず、どのような形態にも適用可能である。
本実施形態の固有表現の抽出装置10は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本実施形態では、上記プログラムが予めインストールされている形態について説明したが、当該プログラムを、コンピュータが読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
9、9A、9B 入力文
10 固有表現の抽出装置
11 言語特徴の抽出装置
12 形態素解析部
13、13A、13B 形態素解析結果
14 言語特徴抽出部
15、15A、15B 言語特徴抽出結果
16 固有表現抽出部
17 固有表現抽出モデル
18、18A、18B 言語別特徴抽出ルール
19、19A、19B 固有表現

Claims (7)

  1. 複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、
    複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、
    入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部
    を備えた言語特徴の抽出装置。
  2. 複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力する言語特徴抽出部と、
    前記複数の対象言語に共通の機械学習アルゴリズムを用い、前記複数の対象言語ごとに、言語特徴抽出結果を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデルと、
    前記言語特徴抽出部から出力された言語特徴抽出結果を入力として、前記入力文の言語に対応する前記固有表現抽出モデルを用いて、固有表現抽出処理を実行し、抽出した固有表現を出力する固有表現抽出部と、
    を備えた固有表現の抽出装置。
  3. 前記抽象ルールの集合は、単語内の文字状況の特徴を捉えるためのルール、単語情報を別の観点で置き換えるためのルール、及び言語ごとに有用な特徴量の取捨選択を実現するためのルールからなる、
    請求項1または請求項2に記載の抽出装置。
  4. 前記抽象ルールの集合は、任意の箇所の部分文字列を抽出するためのルール、任意の箇所の部分文字列の置換、挿入、及び削除の少なくとも一つを行って文字列を抽出するためのルール、所定のパタンにマッチする表現に対し、特定のラベル情報を付与するためのルール、及び所定のパタンにマッチする表現か否かを判定するためのルールを含む、
    請求項1または請求項2に記載の抽出装置。
  5. 言語特徴抽出部が、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、
    複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、
    入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力するステップ
    を含む言語特徴の抽出方法。
  6. 言語特徴抽出部が、複数の言語に共通した抽象ルールの集合から、対象言語の特徴に応じた抽象ルールを選択し、前記対象言語に合わせた具体的な素性の抽出方法、及び出力条件として定義したものを言語別特徴抽出ルールとし、複数の対象言語の各々に対し、前記言語別特徴抽出ルールを定義し、入力文の形態素解析結果に対し、前記入力文の言語に対して定義され、かつ前記形態素解析結果に含まれる表記又は品詞に関する素性を抽出するための前記言語別特徴抽出ルールを参照して、前記言語に応じた素性を抽出し、言語特徴抽出結果として出力するステップと、
    固有表現抽出部が、前記複数の対象言語に共通の機械学習アルゴリズムを用い、前記複数の対象言語ごとに、言語特徴抽出結果を入力として、固有表現抽出結果を出力するように予め学習済みの言語別の固有表現抽出モデルであって、かつ前記入力文の言語に対応する前記固有表現抽出モデルを用いて、前記言語特徴抽出部から出力された言語特徴抽出結果を入力として固有表現抽出処理を実行し、抽出した固有表現を出力するステップと、
    を含む固有表現の抽出方法。
  7. コンピュータを、請求項1から請求項4のいずれか1項に記載の抽出装置の各部として機能させるためのプログラム。
JP2018083500A 2018-04-24 2018-04-24 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム Active JP6799562B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018083500A JP6799562B2 (ja) 2018-04-24 2018-04-24 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
US17/049,939 US11809820B2 (en) 2018-04-24 2019-04-22 Language characteristic extraction device, named entity extraction device, extraction method, and program
PCT/JP2019/017049 WO2019208507A1 (ja) 2018-04-24 2019-04-22 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018083500A JP6799562B2 (ja) 2018-04-24 2018-04-24 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019191900A true JP2019191900A (ja) 2019-10-31
JP6799562B2 JP6799562B2 (ja) 2020-12-16

Family

ID=68295309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018083500A Active JP6799562B2 (ja) 2018-04-24 2018-04-24 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム

Country Status (3)

Country Link
US (1) US11809820B2 (ja)
JP (1) JP6799562B2 (ja)
WO (1) WO2019208507A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522944A (zh) * 2020-04-10 2020-08-11 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112199953A (zh) * 2020-08-24 2021-01-08 广州九四智能科技有限公司 一种电话通话中信息提取方法、装置及计算机设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191428B (zh) * 2019-12-27 2022-02-25 北京百度网讯科技有限公司 评论信息处理方法、装置、计算机设备和介质
US11308283B2 (en) * 2020-01-30 2022-04-19 International Business Machines Corporation Lightweight tagging for disjoint entities

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258759A (ja) * 2003-02-24 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> テキスト解析装置、方法及びプログラム
US20150286629A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Named entity recognition

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007005477A (ja) 2005-06-22 2007-01-11 Toyota Industries Corp アンダーフィルによるノイズ除去方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004258759A (ja) * 2003-02-24 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> テキスト解析装置、方法及びプログラム
US20150286629A1 (en) * 2014-04-08 2015-10-08 Microsoft Corporation Named entity recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山田 寛康 外2名: "Support Vector Machineを用いた日本語固有表現抽出", 情報処理学会論文誌, vol. 第43巻第1号, JPN6020042652, 15 January 2002 (2002-01-15), JP, pages 44 - 53, ISSN: 0004385340 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522944A (zh) * 2020-04-10 2020-08-11 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN111522944B (zh) * 2020-04-10 2023-11-14 北京百度网讯科技有限公司 用于输出信息的方法、装置、设备以及存储介质
CN112199953A (zh) * 2020-08-24 2021-01-08 广州九四智能科技有限公司 一种电话通话中信息提取方法、装置及计算机设备

Also Published As

Publication number Publication date
WO2019208507A1 (ja) 2019-10-31
US20210097237A1 (en) 2021-04-01
JP6799562B2 (ja) 2020-12-16
US11809820B2 (en) 2023-11-07

Similar Documents

Publication Publication Date Title
US10409911B2 (en) Systems and methods for text analytics processor
WO2019208507A1 (ja) 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
Gómez-Adorno et al. Improving feature representation based on a neural network for author profiling in social media texts
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d&#39;enregistrement, programme et ordinateur
Priyadarshi et al. Towards the first Maithili part of speech tagger: Resource creation and system development
US20220391647A1 (en) Application-specific optical character recognition customization
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2007041767A (ja) テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
CN109815497B (zh) 基于句法依存的人物属性抽取方法
JP2003208307A (ja) ソースプログラム生成システム
JP2023181819A (ja) 言語処理装置、機械学習方法、推定方法及びプログラム
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
Almansor et al. Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
Theivendiram et al. Named-entity-recognition (ner) for tamil language using margin-infused relaxed algorithm (mira)
WO2014030258A1 (ja) 形態素解析装置、テキスト分析方法、及びそのプログラム
JP6667875B2 (ja) 要約文作成モデル学習装置、要約文作成装置、要約文作成モデル学習方法、要約文作成方法、及びプログラム
L’haire FipsOrtho: A spell checker for learners of French
Alsayed et al. A performance analysis of transformer-based deep learning models for Arabic image captioning
JP2019159743A (ja) 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
JP7083473B2 (ja) 入力支援装置
JP5961586B2 (ja) 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200428

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201120

R150 Certificate of patent or registration of utility model

Ref document number: 6799562

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150