JP2023072557A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2023072557A
JP2023072557A JP2021185190A JP2021185190A JP2023072557A JP 2023072557 A JP2023072557 A JP 2023072557A JP 2021185190 A JP2021185190 A JP 2021185190A JP 2021185190 A JP2021185190 A JP 2021185190A JP 2023072557 A JP2023072557 A JP 2023072557A
Authority
JP
Japan
Prior art keywords
tokens
token
named entity
information processing
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021185190A
Other languages
English (en)
Inventor
寛基 浦島
Kanki Urashima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2021185190A priority Critical patent/JP2023072557A/ja
Publication of JP2023072557A publication Critical patent/JP2023072557A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】トークン分割の精度低下を抑える情報処理装置、方法及びプログラムを提供する。【解決手段】固有表現抽出装置において、制御部は、文書データから文字列を抽出し、抽出した文字列をトークン単位に分解し、トークン数と固有表現抽出器である自然言語処理モデルの入力上限とを比較し、抽出した文字列を分解して得られたトークン数が入力上限を超える場合は、分割部が2以上のトークングループに分割する。2以上のトークングループは、限界トークン数を基に、文書データに含まれるトークンを部分的にオーバーラップする形に分割される。限界トークン数は、付与されたGTに定義された固有表現の抽出が正解する最小のトークン数を特定し、特定した固有表現毎の最小のトークン数の中の最大数とする。そして、抽出部が分割したトークングループ毎に固有表現抽出を実行し、制御部が、オーバーラップ部分で抽出された固有表現を決定し、処理を終了する。【選択図】図5

Description

本発明は、自然言語処理のための情報処理技術に関する。
近年、AI技術の進歩に伴い、人間の話し言葉や書き言葉で書かれた文書をコンピュータで解析する自然言語処理と呼ばれる分野が進展してきている。自然言語処理の技術は文書の要約や翻訳、音声対話、データ分析といった文書データを扱う様々な分野で応用が期待されている。
自然言語処理の応用技術の中に、文書データから予め定義した項目(固有表現)の値を抽出する固有表現抽出と呼ばれるものがある。例えば固有表現として法人名、有効期限が定義されているときに、文書データ中から法人名に該当する文字列と有効期限に該当する文字列を抽出するというものである。
現在、自然言語処理において主流となっているTransformersを用いたBERTに代表される自然言語処理モデルは、文書データに含まれる文字列をトークンと呼ばれる単位に分解し、そのトークンをベクトル化したものを入力データとする。但し、自然言語処理モデルが一度に処理できるトークンの数には上限があるため、上限を超えるトークンを含む長文の文書データを入力する場合は、文書データを2以上のトークングループに分割してそれらを別々に入力して処理する必要がある。1つの文書データに含まれる複数のトークンを、単純に自然言語処理モデルの入力上限に合せて分割した場合、固有表現を区別するためのキーワードや文脈(固有表現の周辺の文字列)を失ってしまい、固有表現の推定精度が低下することがある。
特許文献1では、文書データを章や節、段落といったセクションで分割し、一定の文脈を保持することが期待されるトークングループ毎に自然言語処理モデルを用いた固有表現の抽出を行っている。
特開2021-64143号公報
引用文献1では、一度に処理するトークン数が自然言語処理モデルの入力上限に収まるように、文書データに含まれるトークンをセクションで分割するようにしている。しかし、分割したセクションをそれぞれ別々に処理するため、隣接するセクションに含まれる文脈を失うことで推定精度が低下することがあるという課題がある。
そこで本発明では、文書データに含まれるトークンを分割する際に、自然言語処理における推定精度の低下を抑えることを目的とする。
本開示の技術は、入力文字列を分解して得られた複数のトークンから固有表現を抽出するための情報処理装置であって、前記入力文字列を分解して得られた複数のトークンの数が所定の上限数を超える場合、当該複数のトークンを2以上のトークングループに分割する分割手段であって、前記トークングループにおいてはそれぞれ所定の数のトークンが他のトークングループとオーバーラップする、前記分割手段と、前記トークングループごとに前記固有表現を抽出する抽出手段と、前記他のトークングループとオーバーラップする部分についての前記抽出手段による前記固有表現の抽出結果に基づき、前記オーバーラップする部分における前記固有表現の抽出結果を決定する決定手段と、を備えたことを特徴とする。
本発明によれば、文書データに含まれるトークンを分割する際に、自然言語処理における推定精度の低下を抑えることができる。
固有表現抽出装置100の機能およびハードウェアの構成の一例を表すブロック図 受信部102が受信する文書データの一例を表す図 制御部101が取得するトークンの一例を表すテーブル 算出部103が算出する固有表現及び限界トークン数の一例を表すテーブル 制御部101が実行する処理の一例を表すフローチャート 実施形態2における制御部101が実行する処理の一例を表すフローチャート 実施形態3における算出部103が算出する限界トークン数の一例を表すテーブル 実施形態3における制御部101が実行する処理の一例を表すフローチャート 実施形態4における制御部101が実行する処理の一例を表すフローチャート
以下、本発明を実施するための最良の形態について図面を用いて説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
[実施形態1]
実施形態1では、文書データから文字列を抽出し、抽出した文字列をトークン単位に分解し、得られたトークンから自然言語処理モデルを用いて固有表現を抽出・出力するシステムの例を説明する。得られたトークンを一度に自然言語処理モデルに入力して固有表現を抽出できれば、結果を効率的に推定できる。一方、自然言語処理モデルには入力上限があり、一度に入力できるトークン数には上限がある。そのため、長文でトークン数が入力上限を超える場合は、トークングループを複数に分けて自然言語処理モデルに入力する必要がある。しかし、単純に自然言語処理モデルの入力上限に合わせてトークングループを分割した場合、固有表現を区別するためのキーワードや文脈が失われることがあり、そのような場合には固有表現の抽出精度が低下することがある。
そこで実施形態1では、トークン数が自然言語処理モデルの入力上限を超える場合に、まず固有表現が正しく抽出できる限界トークン数に基づき、トークンを一部オーバーラップする2以上のトークングループに分割する。そして、分割したそれぞれのトークングループに対し固有表現の抽出を行い、オーバーラップした部分から抽出する固有表現を決定することで、固有表現抽出の精度低下を抑える。
図1(a)に、本実施形態に係る固有表現抽出装置100の一例の機能ブロック図を示す。固有表現抽出装置100は、制御部101、受信部102、算出部103、分割部104、抽出部105を含む情報処理装置である。
制御部101はCPU111等から構成され、ROM113に記憶されたプログラムやデータをRAM112に読みだして固有表現抽出などの処理を実行する。
受信部102は、固有表現抽出装置100が備える入力装置114の操作により、固有表現抽出処理を行う文書データを受信する。文書データは記憶装置116に保存したものを取得してもよいし、ネットワークインタフェース117を介してネットワーク118上の文書データを取得してもよい。
算出部103は、制御部101において文書データから固有表現を正しく抽出できる限界トークン数を算出する。
分割部104は、文書データから変換されたトークングループを、一度に入力するトークン数が自然言語処理モデルの入力上限数未満となるよう、2以上のトークングループに分割する。
抽出部105は、自然言語処理モデルを用いて分割されたトークングループから固有表現を抽出する。抽出した固有表現は記憶装置116に保存され、ディスプレイなどの出力装置115に表示される。
図2(a)に、受信部102が受信する文書データ例を示す。文書データはページ内に文字列や記号、罫線などを含む種類の異なる複数の要素で構成される。自然言語処理モデルの学習や評価に用いる文書データには、通常GT(Ground Truth)と呼ばれる正解データが付与されている。文書データ210に付与されているGTには、破線矩形内の文字列211、212、213が固有表現であることを示すために、それぞれの文字列に対して法人名、法人名、有効期限という固有表現の種別(または、属性)が定義されているものとする。
文書データ210は、通常、ページ単位で構成され、記号や罫線などを含むが、複数ページで構成されていてもよいし、レイアウト情報を持たず文字情報だけを持つデータであってもよい。すなわち、文書データは文字列情報が取得できるものであればどのような形式のデータであってもよい。
図2(b)に、受信部102が受信する文書データの例を示す。図2(a)と同様のであり、かつ、同様のレイアウトを有する文書データであるが、GT(正解データ)が付与されていない点のみが異なる。
図3(a)、図3(b)に、制御部101が取得するトークンの一例について示す。トークンは、識別子311、トークン文字列312、GT313で表される。
図3(a)は、正解データの付与された文書データ210から抽出した文字列を形態素解析によりトークン単位に分解して得られた261個のトークンが列挙されたトークンのテーブル310である。各トークンにはIOB(Inside-Outside-Beginning)形式でGTが付与される。本実施形態では、固有表現の種別としては、法人名(ORG)、人名(PERSON)、有効期限(DATE)の3種類を使用するものとするが、この3種に限らず他の種別を定義、使用してもよい。
固有表現は複数のトークンから構成されることがあるため、そのような場合には、固有表現の先頭のトークンのGTには“B-”を、それに続くトークンのGTには“I-”をそれぞれ付加する。例えば図2(a)に示す文字列211の“ABC株式会社”は法人名(ORG)の固有表現であるが、2つのトークンT1_003(“ABC”)、T1_004(“株式会社”)で構成されている。そのため、トークンT1_003のGTとしては先頭のトークンを指す“B-ORG”、トークンT1_004のGTとしては後に続くトークンを指す“I-ORG”がそれぞれ付与される。固有表現の種別が付与されないトークンのGTには、固有表現以外であることを表す“O”が付与される。本実施形態では、上記のように各トークンに対してIOB形式でGTを付与しているが、複数のトークンにまたがる固有表現に対してGTを付与する方法は、他の方法であってもよい。
図3(b)は、制御部101が図2(b)に示す文書データから抽出した入力文字列を形態素解析によりトークン単位に分解して得られた264個のトークンが列挙されたトークンのテーブル320である。テーブル320は、GTが付与されていない文書データ220に基づくため、各トークンについて識別子321、トークン文字列322を有するが、GTは無い。
図4(a)に、算出部103が取得する固有表現の一例についてのテーブルを用いて説明する。固有表現は、固有表現の識別子411、文字列412、種別413で構成され、最小のトークン数414は、固有表現を正しく抽出するために必要な、固有表現の周辺のトークン数の最小数を表す。最小のトークン数414は、GTが付与された複数のトークンを基に算出部103において算出する。固有表現NE_001は、文書データ210の文字列211に対応し、文字列として“ABC株式会社”、種別として“法人名(ORG)”を持つ。同様に、固有表現NE_002は、文書データ210の文字列212に対応し、文字列として“DEF株式会社”、種別として“法人名(ORG)”を持つ。固有表現NE_003は、文書データ210の文字列213に対応し、文字列として“10月31日”、種別として“有効期限(DATE)”を持つ。固有表現NE_004~NE_006は異なる文書データにおいて定義された固有表現であり、それぞれ固有表現の種別として人名、法人名、有効期限が設定されている。
図4(b)に、図4(a)に示す例において算出部103が導出する限界トークン数を示す。限界トークン数は、テーブル410に登録されている全ての固有表現それぞれに対応する最小のトークン数414の中で最も大きい値である。
図5(a)は、本実施形態において制御部101において実行される限界トークン数導出処理の一例を表すフローチャートである。本フローチャートは、固有表現抽出装置100において、初期化時に実行される。本処理は、後述する固有表現抽出装置100と異なるデバイスで算出したものを取得するようになっていてもよい。
S511では、制御部101が、GTが付与された文書データ210を受信部102から取得する。
S512では、制御部101が、取得した文書データから入力文字列を抽出し、抽出した入力文字列を形態素解析によりトークン単位に分解する。
S513では、制御部101が、算出部103を用いて、付与されたGTに定義された固有表現の抽出が正解する最小のトークン数を特定する。本ステップではまず、各文書データのトークンに付与されたGTに基づき固有表現を取得し、記憶する。GTが付与された文書データ210については、“ABC株式会社”、“DEF真空株式会社”、“10月31日”をテーブル410に固有表現としてそれぞれ記憶する。その際、取得した各固有表現に識別子411を付与して、固有表現の文字列412、固有表現の種別413を対応付けて記憶する。次に、文書データに対し固有表現抽出を行って抽出した固有表現について、固有表現の抽出が正解する最小のトークン数を特定する。具体的には、固有表現の前後のトークン数の初期値を128とし、その数の周辺のトークンを用いて固有表現の抽出を実行する。固有表現の抽出が正解した場合は、周辺のトークン数を1減らして再度固有表現の抽出を実行し、抽出不可または不正解になるまで周辺のトークンを減らしながら固有表現の抽出を実行する。特定された抽出が成功した最小のトークン数は、テーブル410の最小のトークン数414に記憶する。尚、最小のトークン数を特定する際の周辺トークン数の初期値は、固定値でも良いし、文書データに含まれるトークン数や他の文書データの結果を基に決めてもよい。最小のトークン数を特定する際にトークン数を減らしていく方法としては、1ずつ減らす方法の他に、二分探索を用いて探索してもよく、最小のトークン数を求める方法であればその他の方法を用いてもよい。
S514では、算出部103が、特定した固有表現ごとの最小のトークン数の中の最大値を限界トークン数としてテーブル420に記憶する。テーブル410において最小のトークン数の最大値は“7”のため、限界トークン数として“7”を記憶する。
尚、ここでは最小のトークン数の最大値を限界トークン数として用いたが、所定の割合の固有表現において最小のトークン数以上となるトークン数の中で最小のものを限界トークン数として用いてもよい。例えば固有表現の8割が正解するトークン数を限界トークン数とした場合、最小のトークン数414の8割が正解する“6”が、限界トークン数となる。
図5(b)は、本実施形態において制御部101において実行される処理の一例を表すフローチャートである。本フローチャートは、固有表現抽出装置100において、文書データに対して固有表現抽出が指示されたのに応じて実行される。
S521では、制御部101が、文書データから入力文字列を抽出し、抽出した入力文字列をトークン単位に分解してS522に移行する。本ステップでは正解データの付与されていない文書データ220から入力文字列を抽出し、抽出した入力文字列をトークン単位に分解する。
S522では、制御部101が、トークン数と固有表現抽出器である自然言語処理モデルの入力上限数とを比較し、抽出した入力文字列を分解して得られたトークン数が入力上限数を超える場合はS523に、超えない場合はS524に移行する。自然言語処理モデルの入力上限を256としたときに、テーブル410に記憶されたトークン数は264個で、入力上限数を超えるため、S523に移行する。
S523では、分割部104が、S514で特定された限界トークン数を基に、文書データに含まれるトークンを部分的にオーバーラップする形で2以上のトークングループに分割し、S524に移行する。本ステップでは、まずテーブル420に記憶された限界トークン数を取得する。この値は、予め設定された値を用いてもよい。限界トークン数“7”を2倍にした値の14個のトークンをオーバーラップする形で1つのトークングループを2以上のトークングループに分割する。ここでオーバーラップするトークン数を限界トークン数の2倍にした理由は、固有表現の周辺のトークンとして7個のトークンを確保するためである。この値にさらに固有表現の平均トークン数を足した値を用いてもよい。テーブル320に示す例の場合、T2_001からT2_256のトークングループ1と、T2_243からT2_264のトークングループ2とに分割し、T2_243からT2_256までの14個のトークンがオーバーラップするようにする。分割する際、限界トークン数から算出した数字“14”をオーバーラップするトークン数の下限として、分割数を増やさずにトークン数が最大化されるように分割してもよい。例えば、テーブル320のトークングループを、T2_001からT2_256のトークングループ1と、T2_009からT2_264のトークングループ2とに分割してもよい。いずれにせよ分割後のトークングループが限界トークン数から算出した下限以上のトークン数を有するようにトークングループを分割できていればよい。
本実施形態では限界トークン数を1つの数値で扱ったが、固有表現の前のトークン数と後ろのトークン数で分けて計算し、それらを足したトークン数をオーバーラップさせてもよい。
S524では、抽出部105が、分割したトークングループごとに固有表現抽出を実行する。本ステップではトークングループ1、トークングループ2それぞれに対して固有表現抽出を実行し、固有表現を取得する。トークングループ1からは法人名(ORG)として“GHI株式会社”と、“JKL運輸会社”、有効期限(DATE)として“3月5日”が抽出されたとする。また、トークングループ2からは有効期限(DATE)として“3月5日”が抽出されたとする。“3月5日”はトークングループ1、トークングループ2のオーバーラップされた部分からそれぞれ抽出されたとする。
S525では、制御部101が、オーバーラップ部分で抽出された固有表現を決定し、処理を終了する。具体的には、オーバーラップ部分で共通のトークンに対して同じ結果が抽出された場合は、一方のみを結果として出力し、異なる結果が抽出された場合は、周辺のトークン数が多い方の結果を出力する。オーバーラップ部分で一方が未検出の場合も、トークン数が多い方の結果を優先する。S524において示した例では、トークングループ1およびトークングループ2の両方のオーバーラップ部分において有効期限(DATE)として“3月5日”が抽出されているため、一方の結果のみを出力する。そのため、テーブル410の抽出結果としては、法人名(ORG)として“GHI株式会社”と“JKL運輸会社”、有効期限(DATE)として“3月5日”を出力する。
以上のように、文字数の多い文書データから固有表現抽出を行う際、オーバーラップする2以上のトークングループに分割することで、固有表現の周辺のキーワードとなる文字列や文脈が失われることを防ぎ、固有表現抽出の精度低下を抑えることができる。
[実施形態2]
実施形態1では、各固有表現に対し最小のトークン数を特定する際に、トークン数を徐々に減らして正解可能な最小のトークン数を求めた。これに対し本実施形態では、自然言語処理モデルのネットワークに現れるトークンとの関連度に基づき、限界トークン数を求める。
図6は、本実施形態において制御部101で実行される処理の一例を表すフローチャートである。なお、フローチャートのS511、S512、S514は図5(a)の同一符号のステップと同様の処理のため、ここでは説明を割愛する。
S611では、算出部103において、GTにおいて定義された固有表現に対し、自然言語処理モデルのネットワークに現れるトークンとの関連度に基づき、固有表現の抽出が正解する最小のトークン数を算出する。本ステップでは、まず各文書データのトークンに付与されたGTに基づき固有表現を取得し、図4に示すテーブル410に記憶する。テーブル410には固有表現の識別子411、固有表現の文字列412、固有表現の種別413を記憶する。次に、それぞれの固有表現について、固有表現の抽出が正解する最小のトークン数414を算出する。
具体的には、まず固有表現の前後のトークン数が最大になるように文書データに含まれるトークンを2以上のトークングループに分割する。そして、分割して得られたトークングループに対しTransformersを用いたBERTに代表されるセルフアテンション機構を持つ自然言語処理モデルを用いて、固有表現の抽出を行う。固有表現の抽出が正解した場合は、その固有表現のトークンと、その周辺のトークンとの関係を自然言語処理モデルのネットワークに現れるアテンションの強度で測る。アテンションの強度が所定の閾値以上である周辺のトークン数のうちの最小数を、固有表現に対応した最小のトークン数とする。算出した最小のトークン数はテーブル410の最小のトークン数414として記憶する。
以上のように、文字数の多い文書データから固有表現抽出を行う際、オーバーラップする2以上のトークングループに分割することで、固有表現の周辺のキーワードとなる文字列や文脈が失われることを防ぎ、固有表現抽出の精度低下を抑えることができる。さらに、自然言語処理モデルのネットワークの情報を基に最小のトークン数を算出することにより、より容易に最小のトークン数を算出できる。
[実施形態3]
実施形態1では、固有表現に対して共有の限界トークン数を算出した。これに対し本実施形態では、固有表現の種別ごとに限界トークン数を求める。
算出部103が特定する限界トークン数の一例について図7のテーブル700を用いて説明する。限界トークン数は固有表現の種別701と、限界トークン数702により構成される。固有表現のテーブル410を基に固有表現の種別ごとに算出した値が702に入る。テーブル700には法人名(ORG)、人名(PERSON)、有効期限(DATE)の限界トークン数が703、704、705にそれぞれ定義される。
図8(a)は、本実施形態において制御部101において実行される処理の一例を表すフローチャートである。なお、フローチャートのS511、S512、S513は図5(a)の同一符号のステップと同様の処理のため、説明を割愛する。
S811では、算出部103が、固有表現の種別ごとに限界トークン数を特定し、処理を終了する。固有表現のテーブル410の最小のトークン数414に記憶された値を取得し、固有表現の種別ごとに最大値を求め、テーブル700に固有表現の種別ごとに限界トークン数を保存する。ここでは最大値を用いたが、所定の割合の固有表現において最小のトークン数を上回るトークン数を限界トークン数として用いてもよい。
図8(b)は、本実施形態において制御部101において実行される処理の一例を表すフローチャートである。なお、フローチャートのS521、S522、S524、S525は図5(b)の同名のステップと同様の処理のため、説明を割愛する。
S821では、受信部102が抽出する固有表現の種別(または属性)を受け付けて、S521に移行する。ここでは固有表現抽出デバイスのユーザから文書データに含まれる人名の種別の固有表現を抽出することを受け付けたとする。
S822では、分割部104が、S821で受け付けた固有表現の種別に対応する限界トークン数を基に、文書データに含まれるトークンを部分的にオーバーラップする形で2以上のトークングループに分割し、S524に移行する。本ステップでは、S821において受け付けた種別を基にテーブル700に記憶された限界トークン数を取得する。複数の種別を受け付けた場合はその最大値を用いる。ここではS821において人名を受け付けているので、対応する限界トークン数である“2”を基に文書データに含まれるトークンを部分的にオーバーラップする形で2以上のトークングループに分割する。
このように限界トークン数を抽出対象として受け付けた固有表現の種別に対応した最小のトークン数に限定することで、トークングループの分割数を抑え、固有表現抽出において処理するトークン数を低減させることが可能である。
以上のように、文字数の多い文書データから固有表現抽出を行う際、オーバーラップする2以上のトークングループに分割することで、固有表現の周辺のキーワードとなる文字列や文脈が失われることを防ぎ、固有表現抽出の精度低下を抑えることができる。さらに、限界トークン数として抽出対象の固有表現の種別に対応した最小のトークン数を設定することにより、文書データの分割数を抑え、計算量を削減することができる。
[実施形態4]
実施形態1では、予め求めておいた限界トークン数を用いて、全トークンを2以上のトークングループに分割した。これに対し本実施形態では、推定した固有表現の利用状況を基に限界トークン数を更新していく例を説明する。
図9は、本実施形態において制御部101において実行される処理の一例を表すフローチャートである。本フローチャートは、固有表現抽出デバイスにおいて、文書データに対し固有表現抽出が実行され、抽出した固有表現がデバイスのユーザによって使用された後に、実行される。なお、フローチャートのS512、S513は図5(a)の同一符号のステップと同様の処理のため、説明を割愛する。
S911では、デバイスのユーザが選択したトークンを固有表現として追加的に定義したGTが付与された文書データを取得し、S512に移行する。文書データから固有表現が抽出され、その中で抽出された法人名(ORG)の“GHI株式会社”がユーザによって選択された際に、テーブル320の対応するトークンを固有表現として追加的に定義したGTを付与する。具体的にはトークンT2_003、T2_004にGTとしてそれぞれ“B_ORG”、“I_ORG”を付与し、それ以外のトークンにGTとして“O”を付与したものを文書データとして取得する。
S912では、算出部103において、限界トークン数を更新し、処理を終了する。具体的には、S911で取得した文書データに対するS512、S513における処理の結果が反映され、ユーザが選択した固有表現に対応する最小のトークン数が追加された固有表現のテーブル410を基に、限界トークン数のテーブル420を更新する。
以上のように、文字数の多い文書データから固有表現抽出を行う際、オーバーラップする2以上のトークングループに分割することで、固有表現の周辺のキーワードとなる文字列や文脈が失われることを防ぎ、固有表現抽出の精度低下を抑えることができる。さらに、限界トークン数を更新していくことで、未知の文書に対しても精度低下を抑えることができる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 固有表現抽出装置
101 制御部
102 受信部
103 算出部
104 分割部
105 抽出部

Claims (12)

  1. 入力文字列を分解して得られた複数のトークンから固有表現を抽出するための情報処理装置であって、
    前記入力文字列を分解して得られた複数のトークンの数が所定の上限数を超える場合、当該複数のトークンを2以上のトークングループに分割する分割手段であって、前記トークングループにおいてはそれぞれ所定の数のトークンが他のトークングループとオーバーラップする、前記分割手段と、
    前記トークングループごとに前記固有表現を抽出する抽出手段と、
    前記他のトークングループとオーバーラップする部分についての前記抽出手段による前記固有表現の抽出結果に基づき、前記オーバーラップする部分における前記固有表現の抽出結果を決定する決定手段と、
    を備えたことを特徴とする情報処理装置。
  2. 前記所定の上限数は、前記抽出手段が一度に処理できるトークン数である、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記決定手段は、前記オーバーラップする部分におけるオーバーラップする2つのトークングループのそれぞれからの前記固有表現の抽出結果のうち、当該オーバーラップするトークングループの中でトークン数の多いトークングループの前記固有表現の抽出結果を前記オーバーラップする部分における前記固有表現の抽出結果に決定する、
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記所定の数は、前記抽出手段が前記固有表現を抽出するために必要な限界トークン数に基づき設定されている、
    ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記限界トークン数は、前記抽出手段が固有表現を定義する正解データが付加された入力文字列から当該固有表現の抽出に正解した際に入力したトークン数の中で最小のトークン数である、
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記限界トークン数は、前記抽出手段が用いる自然言語処理モデルにおいて、入力文字列に付与された正解データにおいて定義された固有表現に対応するトークンとの関連度が所定の値以上であるトークン数の中で最小のトークン数である、
    ことを特徴とする請求項4に記載の情報処理装置。
  7. 前記限界トークン数は、前記正解データが複数の固有表現を定義している場合、当該複数の固有表現に対応する複数の前記最小のトークン数の中で最大のものである、
    ことを特徴とする請求項5又は6に記載の情報処理装置。
  8. 前記限界トークン数は、前記正解データが複数の固有表現を定義している場合、当該複数の固有表現のうち所定の割合の固有表現の抽出に正解した際に入力したトークン数の中で最小のトークン数である、
    ことを特徴とする請求項5又は6に記載の情報処理装置。
  9. 前記抽出手段において抽出する固有表現の種別を受け付ける受け付け手段をさらに備え、
    前記限界トークン数は、前記受け付け手段において受け付けた種別の固有表現の抽出に正解した際に入力したトークン数の中で最小のものとする、
    ことを特徴とする請求項4に記載の情報処理装置。
  10. 前記正解データは、前記抽出手段によって前記入力文字列から抽出された固有表現の中でユーザにより選択された固有表現を前記正解データに追加的に定義されたものである、
    ことを特徴とする請求項5乃至8のいずれか1項に記載の情報処理装置。
  11. 入力文字列を分解して得られた複数のトークンから固有表現を抽出するための情報処理方法であって、
    前記入力文字列を分解して得られた複数のトークンの数が所定の上限数を超える場合、当該複数のトークンを2以上のトークングループに分割するステップであって、前記トークングループにおいてはそれぞれ所定の数のトークンが他のトークングループとオーバーラップする、ステップと、
    前記トークングループごとに前記固有表現の抽出するステップと、
    前記他のトークングループとオーバーラップする部分についての前記抽出するステップによる前記固有表現の抽出結果に基づき、前記オーバーラップする部分における前記固有表現の抽出結果を決定するステップと、
    を有することを特徴とする情報処理方法。
  12. コンピュータを請求項1乃至10のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
JP2021185190A 2021-11-12 2021-11-12 情報処理装置、情報処理方法、及びプログラム Pending JP2023072557A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021185190A JP2023072557A (ja) 2021-11-12 2021-11-12 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021185190A JP2023072557A (ja) 2021-11-12 2021-11-12 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2023072557A true JP2023072557A (ja) 2023-05-24

Family

ID=86424331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021185190A Pending JP2023072557A (ja) 2021-11-12 2021-11-12 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2023072557A (ja)

Similar Documents

Publication Publication Date Title
US10496755B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium storing program
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP2023072557A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JP5106431B2 (ja) 機械翻訳装置、プログラム及び方法
US20110172991A1 (en) Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
JP2000148754A (ja) マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
JP2018077677A (ja) 文字列変換装置、モデル学習装置、方法、及びプログラム
CN113988047A (zh) 一种语料筛选方法和装置
JP2010287154A (ja) 文書校正プログラムおよび文書校正装置
JP2021128421A (ja) トークン長変換装置、プログラム及び方法
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP2010176237A (ja) 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム
JP2007264858A (ja) 人名性別判定プログラム、機械翻訳プログラム、人名性別判定装置、機械翻訳装置、人名性別判定処理方法および機械翻訳処理方法
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN113435188B (zh) 基于语义相似的过敏文本样本生成方法、装置及相关设备
US20180033425A1 (en) Evaluation device and evaluation method
KR102668118B1 (ko) 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム