JP6982347B1 - コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 - Google Patents

コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 Download PDF

Info

Publication number
JP6982347B1
JP6982347B1 JP2020179942A JP2020179942A JP6982347B1 JP 6982347 B1 JP6982347 B1 JP 6982347B1 JP 2020179942 A JP2020179942 A JP 2020179942A JP 2020179942 A JP2020179942 A JP 2020179942A JP 6982347 B1 JP6982347 B1 JP 6982347B1
Authority
JP
Japan
Prior art keywords
document
language
morphemes
morpheme
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020179942A
Other languages
English (en)
Other versions
JP2022070720A (ja
Inventor
和直 恩田
Original Assignee
和直 恩田
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 和直 恩田 filed Critical 和直 恩田
Priority to JP2020179942A priority Critical patent/JP6982347B1/ja
Application granted granted Critical
Publication of JP6982347B1 publication Critical patent/JP6982347B1/ja
Publication of JP2022070720A publication Critical patent/JP2022070720A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが求める文書に類似する文書を簡便に抽出するプログラム、文書抽出方法及び言語処理装置を提供する。【解決手段】言語処理装置10のプログラムは、コンピュータに、第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第1の変換処理と、第1の文書との関連性が判定される第2の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第2の変換処理と、第1の文書の形態素と第2の文書の形態素とで、一致する形態素を計数する計数処理と、計数処理の結果に基づき第1の文書と第2の文書との関連性を判定し、第1の文書と関連性のある第2の文書の一部またはすべてを抽出する抽出処理と、を実行させる。【選択図】図1

Description

本発明は、コンピュータ言語処理における言語関連処理で意味的に類似する文書を抽出するプログラム、文書抽出方法および言語処理装置に関する。
ユーザが指定したキーワード(有効語彙=単語および連続する語彙)又は文章(よく使われる文章)を設定し、設定されたキーワード、文章に関係するキーワード又は文章を検索するサービスが提供されている。
例えば、特許文献1に記載された類似テキスト抽出装置は、複数の対象テキストのそれぞれについて、単語分割を行い、単語ベクトルを生成する。また、この類似テキスト抽出装置は、その単語ベクトルに基づいて、前記対象テキストの特徴を示す文ベクトルを生成する。さらに、類似テキスト抽出装置は、その文ベクトルに基づいて、前記複数の対象テキストから互いに類似する対象テキストを抽出する。
特開2019−109654号公報
特許文献1によると、類似文章抽出装置は、対象テキストを単語に分割する。この類似文章抽出装置は、分割した単語のそれぞれについて、名詞、動詞、形容詞、形容動詞、助動詞、助詞などの品詞を判別する。さらに、この類似文章抽出装置は、分割した単語から助詞などの機能表現を除外した単語を単語ベクトルとして生成する。類似文章抽出装置は、その単語ベクトルを基に文ベクトルを生成する。類似文章抽出装置は、その文ベクトルに基づき類似度を算出し、類似テキストを抽出する。一方、特許文献1では、類似文章抽出装置が助詞などの機能表現を除外するので、ユーザが求める文書を抽出できないことが生じ得る。本発明は、意味的に類似する文章(文書)を従来よりも精度よく、かつ、簡便に抽出するプログラム等を提供することを目的とする。
本発明の実施形態の一側面は、コンピュータに処理を実行させるプログラムによって例示される。
本プログラムは、コンピュータに、
第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第1の変換処理と、
前記第1の文書との関連性が判定される第2の文書を、前記形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第2の変換処理と、
前記第1の文書の形態素と前記第2の文書の形態素とで、一致する形態素を計数する計数処理と、
前記計数処理の結果に基づき前記第1の文書と前記第2の文書との関連性を判定し、前記第1の文書と関連性のある前記第2の文書の一部またはすべてを抽出する抽出処理と、
を実行させる。
以上説明したように、本発明は、ユーザが求める文書に類似する文書を簡便に抽出するプログラム等を提供することができる。
図1は、本発明に係る言語処理装置のブロック図である。 図2は、本発明の実施例における、第1の文書を形態素に区切られた文書に変換し、重複する形態素を削除する処理を例示するフローチャートである。 図3は、本発明の実施例における、第2の文書を形態素に区切られた文書に変換し、重複する形態素を削除する処理を例示するフローチャートである。 図4は、本発明の実施例における、第1の文書と第2の文書とで、一致する言語数を計数する処理のフローチャートである。 図5は、本発明の実施例における、抽出文書生成部の処理を例示するフローチャートである。 図6は、本発明の実施例における、言語処理装置の処理を例示するフローチャートである。 図7は、本発明の実施例における、文書を抽出する処理の例である。 図8は、本発明の実施例における、文書を抽出する処理の例である。 図9は、従来技術における、文書を抽出する処理の例である。 図10は、従来技術における、文書を抽出する処理の例である。 図11は、従来技術における、文書を抽出する処理の例である。
以下、図面に基づいて、本発明の一実施の形態(実施例とも言う)における文書抽出プログラム、文書抽出方法および言語処理装置を説明する。
<実施例>
図1〜図8を用いて、実施例について説明する。
図1は、本実施例における言語処理装置のハードウェア構成を例示するブロック図である。言語処理装置10は、CPU(Central Processing Unit)101と、主記憶部10
2と、各種インターフェースを通じて接続される入出力部品を有する。CPU101は、主記憶部102に記憶されるプログラムにより情報処理を実行する。
言語処理装置10は、例えば、有線インターフェース(以下、有線I/Fと言う)103と、通信インターフェース(以下、通信I/Fと言う)104と、外部記憶部105と、入力装置106と、出力装置107と、を備える。ここで、言語処理装置10は、例えば、パーソナルコンピュータ、スマートフォン、携帯情報端末と呼ばれる電子機器である。
CPU101は、抽出文書生成部1011と、抽出文書記憶部1012と、入力文取得部1013と、言語抽出部1014と、言語整理部1015と、対象抽出部1016と、抽出結果出力部1017と、を含み、主記憶部102に実行可能に展開されたコンピュータプログラムを実行し、言語処理装置10の機能を提供する。CPU101は、マルチコアであってもよいし、信号処理等を実行する専用プロセッサを含んでもよい。CPU101は、信号処理、積和演算、ベクトル演算、その他の処理を実行する専用のハードウェア回路を含んでもよい。図1の構成は、CPU101の一例である。実施例において、言語処理装置10が図1の構成に限定される訳ではない。例えば、外部の言語処理装置等が抽出文書生成部1011と、抽出文書記憶部1012と、入力文取得部1013と、言語抽出部1014と、言語整理部1015と、対象抽出部1016と、抽出結果出力部1017のいずれかを有しており、有線I/F103、通信I/F104又は無線I/Fを介してそれらに接続するものであってもよい。抽出文書生成部1011と、抽出文書記憶部1012と、入力文取得部1013と、言語抽出部1014と、言語整理部1015と、対象抽出部1016と、抽出結果出力部1017のいずれかが有線I/F103、通信I/
F104又は無線I/Fを介してCPU101に接続されるものであっても、CPU101は、実施例に例示した処理を実施できる。
CPU101は制御回路の一種である。CPU101の代わりにMPU(Micro Processing Unit)や、GPU(Graphics Processing Unit)等の各種プロセッサが用いられて
もよい。CPU101は、言語処理装置10全体を制御する機能を有する。
CPU101は、言語処理装置10が備える主記憶部102、又は、有線I/F103を経由して接続された外部記憶部105に格納された所定のアプリケーションを実行することにより、出力装置107にユーザが求める文書の抽出結果を提供する。これにより、CPU101は、ユーザが求める文書の抽出を行うための動作を入力装置106に実施させることができる。
主記憶部102は、CPU101が実行するコンピュータプログラム、CPU101が処理するデータ等を記憶する。主記憶部102は、ROM(Read Only Memory)やRAM(Random Access Memory)など揮発性記憶装置を含んで構成され、CPU101が使用するプログラムや演算パラメータなどの制御用データを一時的に記憶する。主記憶部102は、例えば、主メモリと、読取専用メモリとを含む。主記憶部102はまた、動的ランダムアクセスメモリ(DRAM)および高速キャッシュメモリを含む。動作および使用時、主記憶部102は、処理データが主記憶部102内に記憶されると、CPU101による実行のための命令の少なくとも一部を記憶する。
言語処理装置10は、主記憶部102の他に外部記憶部105を有してもよい。外部記憶部105は、例えば、主記憶部102を補助する記憶領域として使用され、CPU101が実行するコンピュータプログラム、CPU101が処理するデータ等を記憶する。外部記憶部105は、フラッシュメモリ、HDD(Hard Disk Drive)で例示されるディス
クドライブなどの不揮発性記憶装置を含む。ユーザの認証プログラムや、各種画像やオブジェクトに関するデータを含む文書抽出プログラム等が格納される。外部記憶部105には、さらに、各種データを管理するためのテーブルを含むデータベースが構築されていてもよい。
有線I/F103は、CPU101と外部記憶部105、入力装置106及び出力装置107の間における情報を伝達する。伝達される情報は、例えば、CPU101が実行するコンピュータプログラム、CPU101が処理するデータ等の情報である。有線I/F103は、USB(Universal Serial Bus)端子、DVI(Digital Visual Interface)端子及びHDMI(登録商標)(High−Definition Multimedia Interface)端子等の各
種接続端子を含んで構成され、CPU101と外部記憶部105等を接続する。これに限らず、有線I/F103の代わりに、無線I/Fが、CPU101と外部記憶部105、入力装置106及び出力装置107のいずれか、又は、それらのすべてを接続してもよい。 無線I/Fは、例えば、Bluetooth Low Energy (BLE)、無線LAN等である。
図1の構成は、言語処理装置10の一例であって、実施例において、言語処理装置10が図1の構成に限定される訳ではない。外部記憶部105、入力装置106及び出力装置107のいずれかが無線I/Fを介してCPU101に接続されるものであっても、CPU101は、実施例に例示した処理を実施できる。
通信I/F104は、ネットワークNを介して他の装置とデータを授受する。通信I/F104は、例えば、携帯電話網の基地局と接続可能な端末側の通信装置である。通信I/F104は、無線LAN(Local Area Network)へのインターフェース、Bluetooth(
登録商標), Bluetooth Low Energy (BLE)のインターフェースを含んでもよい。
入力装置106は、ユーザが入力操作を行うための操作デバイスである。具体的には、入力装置106としては、マウス等のポインティング・デバイスやキーボード等が用いられる。また、出力装置107の表示画面に重ねて設けられたタッチ・パネルを入力装置106として用いてもよい。
出力装置107は、例えば、液晶ディスプレイ、エレクトロルミネッセンスパネル等である。出力装置107は、CPU101の制御により、処理対象である電子文書を表示する。また、出力装置107は、CPU101により行われた処理の結果を表示する。信号処理専用のプロセッサとメモリ等に記憶されたプログラムによって形成されてもよい。出力装置107は、専用のハードウェア回路を含んでもよい。ただし、後述する実施例の処理は、ネットワークN上の他の言語処理装置によって実行されてもよい。この場合には、入力装置106は、他の言語処理装置と連携して言語処理の結果をユーザに提供する。
抽出文書生成部1011は、ウェブコンテンツや文書ファイル等から、抽出対象となる文書(以下、第2の文書と呼ばれる)を取得して文書ファイルを作成する。本実施の形態では、言語処理装置10は、抽出対象となる文書から、ユーザ指定の用語を含む文書の一部または全部、あるいは、ユーザ指定の文書に類似する文書の一部または全部を抽出する。ここで、ユーザ指定の用語文書またはユーザ指定の文書は、いわば、抽出の基になるデータであって、第1の文書と呼ぶ。また、抽出対象となる文書を第2の文書と呼ぶ。
また、本実施の形態で、文脈とは「言語」のまとまりを指し、「言語」とは、形態素解析に用いられる辞書に基づき、文書が形態素の単位に分割されたものを指すものとする。本解析処理は、形態素解析辞書を使用する形態素解析器によって行われてもよい。形態素解析器とは、日本語を単語に分かち書きしたり、品詞を特定したりする機能を有するツールである。ここでツールとは、コンピュータ上で利用されるプログラムであって、他のプログラムから起動されて機能を提供するものをいう。ただし、抽出文書生成部1011は、文書から同一の形態素が複数回取得された場合でも、該当する形態素を1つだけ文脈に含める。要するに、本実施の形態で、文脈とは、第1の文書が有する形態素であって、重複を除去した形態素の集合をいう。次に、抽出文書生成部1011は、作成された文書ファイルに基づき、抽出文書情報を作成する。一例として、抽出文書情報は、言語データ、対象情報、及び抽出索引データの3つから構成される。
言語データは、抽出文書生成部1011が取得した抽出対象となる第2の文書を、形態素解析器等を使用して、形態素の単位に分割、すなわち言語に変換したデータである。
対象情報は、取得した第2の文書のファイル毎に一意に付与した対象ID、文書ファイル名、及び格納先である。対象情報は、抽出結果出力部1017において、ユーザに文書の抽出結果を提示する際に、第2の文書に係る情報を表示する処理に用いる。
抽出索引データは、言語と、その言語を含む第2の文書の文書部分、すなわち言語データに係る対象IDとの、ペア情報のデータである。抽出索引データのペアは、一つの言語に、一つまたは複数の対象IDが対応する構成となる。抽出索引データは、後述する対象抽出部1016において、第1の文書に係る言語と、第2の文書の文書部分(言語データ)に係る言語とで、言語の一致を計数する処理に用いられる。
抽出文書記憶部1012は、抽出文書生成部1011で生成した抽出文書情報を記憶する。記憶は、主記憶部102又は外部記憶部105への記録によって行なわれる。抽出文書生成部1011及び抽出文書記憶部1012は、言語処理装置10から分離した、別の装置としてもよい。
入力文取得部1013は、ユーザによって入力装置106に入力された第1の文書を取得する。ユーザによる入力操作は、パソコンのキーボード操作、タッチパネルディスプレイにおける操作が例示される。但し、入力操作は、前述の操作に限られず、音声等によって入力されてもよい。
言語抽出部1014は、入力文取得部1013にて取得した第1の文書を受け付け、形態素解析の辞書に基づき、形態素の単位に分割した言語のまとまりである文脈を出力する。分割された言語に原形が存在する場合は、その言語を原形の言語に置換してもよい。原形とは、例えば、言語が動詞の「動か(ない)」である場合、その原形は「動く」である例が挙げられる。
言語整理部1015は、言語抽出部1014で出力した文脈を受け付け、それぞれの文脈において重複する言語を削除することにより、それぞれの文脈において各言語を1つのみに整理し、重複しない言語を出力する。
対象抽出部1016は、言語整理部1015で整理した重複のない言語を有するそれぞれの文書部分に係る文脈を受け付ける。対象抽出部1016は、抽出文書記憶部1012に格納されている抽出索引データを参照し、第1の文書に係る各言語に対応する第2の文書に係る文書部分(言語データ)を取得する。対象抽出部1016は、第1の文書の文脈に係る言語と、第2の文書に係る言語データの言語とで、言語の順を問わず、一致する言語数を集計し、一番大きい集計値を有する文書部分を求める。対象抽出部1016は、一番大きい集計値が得られた文書部分を出力する。対象抽出部1016は、一番大きい集計値に加えて、二番目以降に大きい集計値が得られた文書部分を出力してもよい。対象抽出部1016は、ユーザの指定に基づき、例えば、一番大きい集計値からN番目に大きい集計値までの集計値が得られた文書部分を出力してもよい。これに限らず、出力する文書部分の条件を、入力装置106においてユーザが自由に指定できるようにしてもよい。
抽出結果出力部1017は、対象抽出部1016で抽出した第2の文書に係る文書部分に係る対象IDを受け付ける。抽出結果出力部1017は、抽出文書記憶部1012に記憶されている対象情報を参照する。抽出結果出力部1017は、対象情報における、第2の文書に係る文書部分の対象ID毎に、対応する文書ファイル名及び格納先を取得し、抽出結果として出力する。抽出結果の出力は、例えば、出力装置107における表示装置への表示、主記憶部102又は外部記憶部105等の記憶装置への記録、外部装置への送信等によって行なわれる。ただし、抽出結果の出力方法は、これに限られない。
<一致する言語の計数処理>
次に、実施例における、第1の文書と、第1の文書との関連性が判定される第2の文書とで、一致する言語を計数する処理を、図2〜図4を用いて説明する。図2は、実施例における、第1の文書を形態素(言語)に区切られた文書に変換し、重複する言語を削除する処理を例示するフローチャートである。
言語処理を行う第1の文書として、ユーザが「機械が動かないので作業ができない」と言う文書を、言語処理装置10の入力装置106に入力し、入力文取得部1013が該文書を取得したと仮定する(ステップA1)。
言語処理装置10の言語抽出部1014は、入力文取得部1013が取得した文書を受け付け、形態素解析の辞書に基づき、形態素の単位に分割した各言語を出力する。例えば、図2に示すように、入力された第1の文書が「機械が動かないので作業ができない」である場合は、「機械|が|動か(A11)|ない|ので|作業|が|でき(A12)|な
い」と9言語に分割して出力される。さらに図2の例では、形態素に原形が存在する言語は、第1の文書における形態素は原形に置換される(ステップA2)。具体的には、動詞の形態素「動か」(A11)及び「でき」(A12)は、それぞれ原形の「動く」(A31)及び「できる」(A32)に置換される。従って、上記9言語に分割された文書は、「機械|が|動く|ない|ので|作業|が|できる|ない」と9言語で構成された文脈が出力装置107に出力される(ステップA3)。
言語整理部1015は、言語抽出部1014で出力した各言語を受け付け、重複する言語を削除する。具体的には、出力された言語の文脈「機械|が(A33)|動く|ない(A34)|ので|作業|が(A33)|できる|ない(A34)」には、「が」(A33)及び「ない」(A34)が各々2つ存在し、重複する。そのため、言語整理部1015は、重複する言語である「が」(A33)及び「ない」(A34)を各々1つ削除し、1つのみに整理する処理を行う(ステップA4)。従って、言語整理部1015が出力する文脈は、「機械|が(A53)|動く|ない(A54)|ので|作業|できる」の7言語を有することとなる(ステップA5)。
図3は、実施例における、第1の文書との関連性が判定される第2の文書を形態素(言語)に区切られた文書に変換し、重複する言語を削除する処理を例示するフローチャートである。
<抽出文書生成部>
図3では、第2の文書である第2の文書としてウェブコンテンツ等が想定されている。ユーザが入力した第1の文書である第1の文書に含まれる各言語と一致する言語の数が、抽出対象において計数される。図3では、第2の文書は、「作業ができないのは、機械が動かないので仕方ないです」と言う文書である(ステップB1)。
抽出文書生成部1011は、上記取得した文書を受け付け、形態素解析の辞書に基づき、形態素の単位に分割した各言語を出力する。従って、取得された「作業ができないのは、機械が動かないので仕方ないです」と言う文書は、「作業|が|でき|ない|の|は|機械|が|動か|ない|ので|仕方|ない|です」と14言語に分割して出力される。さらに図3の例では、形態素に原形が存在する言語は、入力された形態素が基本形の形態素に置換される。具体的には、動詞の形態素「動か」及び「でき」に原形が存在し、それぞれ「動く」及び「できる」に言語が置換される。(ステップB2)。従って、上記14言語に分割された文書は、「作業|が|できる|ない|の|は|機械|が|動く|ない|ので|仕方|ない|です」と1言語で構成された文脈が出力される(ステップB3)。ただし、形態素を原形に置換する処理は必須ではない。ステップB2において、形態素を原形に置換する処理を行わずに、処理がステップB3に進んでも良い。
抽出文書生成部1011は、形態素の単位に分割した各言語について、重複する言語を削除する(ステップB4)。図3の例では、分割された言語「作業、が、できる、ない、の、は、機械、が、動く、ない、ので、仕方、ない、です」に係る文脈には、「が」が2つ、「ない」が3つ存在し、各々重複する。抽出文書生成部1011は、重複する言語である「が」を1つ及び「ない」を2つ削除し、「が」及び「ない」を各々1つずつに整理する処理を行う。その後、抽出文書生成部1011が出力する文脈は「作業|が|できる|ない|の|は|機械|動く|ので|仕方|です」の11言語を有することとなる(ステップB5)。
図4は、実施例における、第1の文書と、第1の文書との関連性が判定される第2の文書とで、一致する言語数を計数する処理のフローチャートである。
第1の文書に係る言語は、図2のステップA5で説明したように「機械|が|動く|ない|ので|作業|できる」の7言語である(ステップA5)。これに対して、第2の文書に係る言語は、図3のステップB5で説明したように「作業|が|できる|ない|の|は|機械|動く|ので|仕方|です」の11言語である。対象抽出部1016は、上記の7言語と11言語を比較し、一致する言語数を計数する(ステップC1)。計数する際は、各言語が有する意味に基づく判定は行わない。各言語が有する文字のみを比較し、第1の文書に係る言語と、第2の文書に係る言語が一致するか否かを判定する。図4の例では、第1の文書に係る言語「機械」と、第2の文書に係る言語「機械」と言う言語は、いずれも「機」及び「械」と言う文字を有する。従って、対象抽出部1016は、両言語が一致すると判定する。同様の方法で、対象抽出部1016が、第1の文書に係る言語と、第2の文書に係る言語のすべてについて、一致する言語数の計数処理を行う。対象抽出部1016は、一致する言語数は「作業|が|できる|ない|機械|動く|ので」の7言語であると判定(計数)する(ステップC2)。上記のように、対象抽出部1016は、各言語が文字として一致するか否かのみを判定し、各言語が有する意味は考慮した判定は行わない。ただし、言語処理装置10のCPU101が、各言語が有する意味を考慮した判定処理を行うようにしてもよい。
<抽出文書生成部の処理>
実施例における、言語処理装置10に係るCPU101の抽出文書生成部1011による処理フローの例を、図5を用いて説明する。
抽出文書生成部1011は、ウェブコンテンツや文書ファイル等から、抽出対象となる第2の文書の文書ファイル名及び格納先を取得する(ステップS1)。抽出する対象となる第2の文書は、例えば、ユーザからの入力で指定される。
抽出文書生成部1011は、第2の文書を、所定の文字数を有するページ単位の文書に分割し、文書部分を作成する(ステップS2)。所定の文字数は、言語処理装置10において予め設定されていてもよいし、ユーザが入力装置106へ入力することにより、希望する文字数を指定することができるものであってもよい。
抽出文書生成部1011は、上記分割した各文書部分を、改行なしの文書に変換する(ステップS3)。第2の文書に改行が存在すると、後述する形態素解析の際に、抽出文書生成部1011は、改行前後の文字が一連の形態素であると認識せず、各々の形態素であると認識し、各々の形態素について、形態素解析を行い得る。それにより、本来は一連である形態素について、適切な形態素解析(形態素に区切られた言語への変換処理)がされなくなる事態を防ぐためである。ただし、本改行処理は必須ではない。改行処理が行われずに、処理がステップS4に進んでもよい。
抽出文書生成部1011は、上記改行なしの文書に変換した文書を、形態素解析に用いられる辞書に基づき、形態素に区切られた言語からなる文書に変換し、言語データを作成する。各言語に係る品詞に原形が存在する場合は、形態素に区切られた言語を原形に置き換える処理が行われてもよい(ステップS4)。
抽出文書生成部1011は、上記形態素に区切られた言語データの各言語について、重複する言語の有無を判定する。重複する言語がある場合は、重複する言語を削除し、各言語につき1つの言語のみにする処理を行う(ステップS5)。重複する言語を削除する処理は必須ではない。該削除処理を行わずに、処理がステップS6に進んでもよい。
抽出文書生成部1011は、分割したページに係る文書部分の言語データ毎に、対象IDを生成する(ステップS6)。
抽出文書生成部1011は、言語データが有する言語毎に、対応する対象IDとのペアを生成する(ステップS7)。
抽出文書生成部1011は、抽出文書情報に言語データを追加する(ステップS8)。ペアの追加は、主記憶部102又は外部記憶部105への記憶のいずれにより行われても良い。
抽出文書生成部1011は、抽出索引データに、各言語と対応する対象IDのペア情報を追加する(ステップS9)。ペア情報の追加は、主記憶部102又は外部記憶部105への記憶のいずれにより行われても良い。
抽出文書生成部1011は、抽出文書情報に対象情報(対象ID、文書ファイル名、及び格納先)を追加する(ステップS10)。対象情報の追加は、主記憶部102又は外部記憶部105への記憶のいずれにより行われても良い。
抽出文書生成部1011は、文書を言語に変換し、分割したページ毎に対象IDを生成し、抽出文書情報に対象情報を追加する処理が完了したか否かを判定する(ステップS11)。処理が完了していれば、抽出文書生成部1011の処理は完了し(ステップS11でYES)、完了していなければ(ステップS11でNO)、処理がステップS2に戻る。
<言語処理装置の全体処理>
実施例における、言語処理装置10のCPU101による全体処理フローの例を、図6を用いて説明する。
入力文取得部1013は、ユーザが入力装置106へ入力した抽出したい用語を含む文書を、入力装置106から取得する(ステップT1)。抽出したい用語を含む文書とは、抽出の元になる文書であり、第1の文書の一例ということができる。
言語抽出部1014は、改行による言語分割を避けるため、第1の文書を改行なしの文書に変換する(ステップT2)。ただし、本改行処理は必須ではない。改行処理が行われずに、処理がステップT3に進んでもよい。
言語抽出部1014は、上記改行なしの文書に変換された文書を、形態素解析の辞書に基づき、形態素の単位に区切られた言語からなる文書に変換する(ステップT3)。各言語に係る品詞に原形が存在する場合は、形態素に区切られた言語を原形に置き換える処理が行われてもよい。
言語整理部1015は、上記形態素に区切られた各言語について、重複する言語の有無を判定し、重複する言語がある場合は、各言語につき1つの言語のみになるよう、重複する言語を削除する(ステップT4)。重複する言語を削除する処理は必須ではない。該削除処理を行わずに、処理がステップT5に進んでもよい。
対象抽出部1016は、第1の文書が有する各言語に基づいて、第2の文書の対象IDに対応する文書部分を取得する(ステップT5)。
対象抽出部1016は、第1の文書に係る各言語と、第2の文書の対象IDに対応する各文書部分が有する各言語を比較し、言語の一致を計数する(ステップT6)。
対象抽出部1016は、第1の文書との関連性が判定される第2の文書の対象IDに対応する文書部分のすべてについて、第1の文書との、言語の一致を計数したか否かを判定する(ステップT7)。すべての計数が完了していれば(ステップT7でYES)、処理がステップT8に進み、完了していなければ(ステップT7でNO)、処理がステップT5に戻る。
対象抽出部1016は、第1の文書に係る各言語と、第2の文書の対象IDに対応する文書部分が有する各言語との、言語一致数の最大値を求める(ステップT8)。
抽出結果出力部1017は、最大一致数を持つ対象IDに対応する文書部分を抽出する(ステップT9)。抽出処理は、最大一致数を持つ対象IDに対応する文書部分の一部について行われてもよいし、対応する文書部分のすべてについて行われてもよい。
抽出結果出力部1017は、最大一致数を持つ対象IDに対応する文書部分の抽出結果を出力装置107に出力し、処理を終了する(ステップT10)。
<言語処理装置による、文書の抽出処理例>
実施例において、言語処理装置10を使用して文書を抽出する処理の例を、図7及び図8を用いて説明する。以下の処理例では、検証用の文書データを特許庁HP(Home Page
)に存在する文書から取得し、抽出の対象である第2の文書として使用している。取得した文書データの内、1文書のファイルが 1,000 文字を超える場合、1,000文字毎のページ単位(文書部分)に文書ファイルを分割している。この文書部分について、第1の文書との関連性を判定する処理に関する抽出文書情報が生成される。
<例1>
図7及び図8は、本発明の実施例における、長い文章を有する文書(以下、長文と言う)を第1の文書として、ユーザが希望する文書を抽出する処理の例である。図7は、入力装置106の検索欄に第1の文書を入力及び検索後、文書の抽出結果として表示される画面の左側部分を表す。図8は、図7の画面で、抽出結果として表示された文書を押下した場合に、図7の画面とは別のウインドウで表示される画面(抽出された文書の詳細)の左側部分を表す。すなわち、図7及び図8は、第1の文書を用いた検索に基づく、文書の抽出結果を表す画面である。図面を図7及び図8に分割した理由は、上記の抽出結果が複数の項目により表示され、1つの図面に収めることが困難であるためである。また、抽出結果の項目を図7及び8に分けて、断片的に表すことにより、後述する実施例の説明に重要な点を拡大して表すことができ、本発明の理解が容易になると考えるためである。
図7の例では、特許庁HPの本文から一部をコピーした文章を、長文と仮定し、CPU101による文書の抽出処理を検証している。本例の長文は「共同出願(共有特許権)について特許料の減免申請を行いたいのですが、特許料納付書をオンラインで提出する場合、持分を証明する書面はどのように提出すればよいですか」である。ユーザは該長文を言語処理装置10における入力装置106の検索欄に入力し、検索ボタンを押下する。CPU101の言語抽出部1014により、該長文は、形態素の単位に分割された言語に変換される。各言語に係る品詞に原形が存在する場合は、その言語の原形に変換される。重複する言語が存在する場合は、言語の重複分が削除され、各言語が1つのみに整理される。そして、言語のまとまりである文脈が出力される。該長文の場合、入力された第1の文書に対して、「共同|出願|(|共有|特許|権|)|について|料|の|減免|申請|を|行う|たい|です|が|、|納付|書|オンライン|で|提出|する|場合|持分|証明|書面|は|どの|よう|に|ば|よい|か」、すなわち35言語に分割された文脈が出力された。その第1の文書に係る文脈が有する各言語と、第2の文書(特許ホームページの全体)に係る文脈が有する各言語とで、言語の一致数が計数され、一致数の最大値と
して、35個が符号(言語)一致したことが表示された。そして、35個の符号(言語)が一致した文脈に係る文書が1件、図7の下部、「意味的に類似した文脈の抽出結果>>最も近いものが1件見つかりました。」の下欄に表示(抽出)された。抽出された文書のファイル名は、[data00000964.txt][3/21]である。[3/21]は、[data00000964.txt]の文書データが所定の文字数毎に分割され、全体部分が全体で21ページあり、抽出された文書部分は3ページ目に当たることを示す。
図7で抽出された文書を押下すると、図7の画面とは別のウインドウで、抽出された文書の詳細が図8の画面に表示された。図8の上部には、第2の文書部分が形態素解析により形態素(言語)に分割された文脈が表示された。第1の文書に係る文脈の言語と一致する言語は、長方形の枠で囲まれている。図8の下部には、第2の文書部分を言語に変換(符号化)する前の原文が表示された。第1の文書(長文)と、抽出された文書部分を意味の観点で比較すると、抽出された文書部分は、「共同出願(共有特許権)について特許料の減免申請を行いたいのですが、特許料納付書をオンラインで提出する場合、持分を証明する書面はどのように提出すればよいですか」と言う、第1の文書と同一の文章を含んでいた。従って、抽出された文書部分は、第1の文書と意味が類似する文書と言える。よって、ユーザが入力した第1の文書に類似する文書を、簡便に抽出することができたと言える。
<例2>
例2は、本発明の実施例における、図7で示した長文より短い文書(以下、中文と言う)を第1の文書として、ユーザが希望する文書を抽出する処理の例である。例2では、例1の図7で使用した長文から、言語の数を減らし、一部の用語を異なる表現の用語に置き換えた中文に基づき、文書抽出の精度を検証した。本例における中文は「共同出願で減免申請をする時にオンラインの場合は、持分を証明する書面はどうすればよいのですか」である。該中文を、図7で使用した長文と比較すると、「(共有特許権)」「特許料」「特許料納付書」「提出」と言う用語等が削除されている。また「について」が「で」、「どのように」が「どう」、等のように、異なる表現に置換された用語を含む。さらに、図7で使用した長文には存在しなかった用語「時」が、中文に追加されている。ユーザの利便性を考慮すると、簡潔な用語、文章を入力することにより、文書を検索し、抽出結果を得ようとすることが通常であると思われる。従って、例2における中文は、ユーザが実際に言語処理装置10を使用する際に、入力装置106へ入力する文書に近い文書と仮定し得る。ユーザが中文を言語処理装置10の入力装置106における検索欄に入力し、検索ボタンを押下する。CPU101が行う、文書を言語へ変換する処理により、中文は形態素の単位に分割された言語に変換される。すなわち、中文は形態素の単位(言語)に分割され、各言語に係る品詞の原形に変換され、重複する言語の重複分が削除された後、言語のまとまりである文脈が出力される。該中文の場合、言語処理装置10の処理で、第1の文書に対して、「共同|出願|で|減免|申請|を|する|時|に|オンライン|の|場合|は|、|持分|証明|書面|どう|ば|よい|です|か」、すなわち22言語に分割された文脈が出力された。その第1の文書に係る文脈の言語と、第2の文書(特許ホームページの全体)から分割された第2の文書部分に係る文脈の言語とで、言語の一致数が計数され、一致数の最大値として、21個が符号(言語)一致したことが表示された。そして、21個の符号(言語)が一致した文脈に係る文書が1件表示(抽出)された。
例2でも、例1の図7及び図8と同様に、抽出された文書を押下すると、抽出された文書の画面とは別のウインドウで、抽出された文書の詳細画面が表示された。該詳細画面では、第2の文書部分が形態素解析により形態素(言語)に分割された文脈が表示された。また例2では、第2の文書部分を言語に変換(符号化)する前の原文が表示された。第1の文書(中文)と、抽出された文書部分を意味の観点で比較すると、抽出された文書部分は、「共同出願(共有特許権)について特許料の減免申請を行いたいのですが、特許料納付書をオンラインで提出する場合、持分を証明する書面はどのように提出すればよいですか」と言う、入力された文書と意味が類似する文章を含んでいた。従って、抽出された文書部分は、第1の文書と、意味が類似する文書と言える。よって、ユーザが入力した第1の文書に類似する文書を、簡便に抽出することができたと言える。
<例3>
例3は、本発明の実施例における、例2で示した中文よりも短い文書(以下、短文と言う)を第1の文書として、ユーザが希望する文書を抽出する処理の例である。例3では、例2で使用した中文から、言語の数を減らし、一部の用語を異なる表現の用語に置き換えた短文に基づき、文書抽出の精度を検証する。本例における短文は「減免申請をしたいのですが」である。該短文を、例2で使用した中文と比較すると、「共同」「出願」「オンライン」「持分」「証明」「書面」と言う用語等が削除されている。また「する」が「したい」等のように、異なる表現の用語に置き換えられている。ユーザの利便性を考慮すると、簡潔な用語、文章を入力することにより、文書を検索し、抽出結果を得ようとすることが通常であると思われる。従って、例3における短文は、ユーザが実際に言語処理装置10を使用し、入力装置106へ入力する文書に、さらに近い文書と仮定し得る。ユーザが短文の文書を言語処理装置10の入力装置106における検索欄に入力し、検索ボタンを押下する。CPU101が行う、文書を言語への変換する処理により、短文は形態素の単位に分割された言語に変換される。すなわち、短文は形態素の単位(言語)に分割され、各言語に係る品詞の原形に変換され、重複する言語の重複分が削除された後、言語のまとまりである文脈が出力される。該短文の場合、言語処理装置10の処理で、第1の文書に対して、「減免|申請|を|する|たい|の|です|が」、すなわち8言語に分割された文脈が出力された。その第1の文書に係る文脈の言語と、第2の文書部分に係る文脈の言語とで、各言語の一致数が計数され、一致数の最大値として、8個が符号(言語)一致したことが表示された。そして、8個の符号(言語)が一致した文脈に係る文書が8件表示(抽出)された。
例3でも、例1の図7及び図8と同様に、抽出された文書を押下すると、抽出された文書の画面とは別のウインドウで、抽出された文書の詳細画面が表示された。該詳細画面では、第2の文書部分が形態素解析により形態素(言語)に分割された文脈が表示された。また例3では、第2の文書部分を言語変換(符号化)する前の原文が表示された。第1の文書(短文)と、抽出された文書8件を意味の観点で比較すると、抽出された文書部分8件は、以下の通り、いずれも入力文書と類似する意味を有する文章を含んでいた。上記文章は、具体的には、「[PCT国際特許出願]軽減制度・交付金制度のご案内」、「手数料等の減免制度は度々改正されます。」、「減免申請書等をオンラインで提出することはできますか?」、「共同出願(共有特許権)について特許料の減免申請を行いたいのですが〜」、「産業技術力強化法第19条の適用を受ける特許出願について、減免措置は適用されますか?」、「中小企業の減免措置の申請に当たって〜」、「中小企業等への減免全体としての〜」、「〜審査請求の減免は難しいよ〜」であった。入力された第1の文書(短文)は、「減免申請をしたいのですが」である。抽出された文書部分8件は、「軽減」「減免」「減免申請」「減免措置」いずれかの用語を有するため、第1の文書と意味が類似する文書と言える。抽出された文書数の観点では、長文、中文が1であったのに対して、本短文では8に増えている。ユーザにとって8件の文書部分を確認し、入力した第1の文書と比較を行うことは容易であると思われる。よって、ユーザが入力した対象文書に類似する文書部分を、ユーザが容易に確認できる程度に広く、かつ、簡便に抽出することができたと言える。
<例4>
例4は、本発明の実施例における、例3で示した短文から助詞等を削除し、「減免」及び「申請」と言う名詞の用語のみを第1の文書として、ユーザが希望する文書を抽出する
処理の例である。本例では、短文「減免申請をしたいのですが」から「をしたいのですが」を削除し、残った用語「減免申請」に基づき、文書抽出の精度を検証する。ユーザの利便性を考慮すると、簡潔な用語を入力することにより、文書を検索し、抽出結果を得ようとすることが通常であると思われる。従って、例4における用語は、ユーザが実際に言語処理装置10を使用し、入力装置106へ入力する文書に、さらに近い文書と仮定し得る。ユーザが用語の文書を言語処理装置10の入力装置106における検索欄に入力し、検索ボタンを押下する。CPU101が行う、文書を言語への変換する処理により、用語は形態素の単位に分割された言語に変換され、言語のまとまりである文脈が出力される。該用語の場合、言語処理装置10の処理で、第1の文書に対して、「減免|申請」、すなわち2言語に分割された文脈が出力された。第1の文書に係る文脈の言語と、第2の文書部分に係る文脈の言語とで、言語の一致数が計数され、一致数の最大値として、2個が符号(言語)一致したことが表示された。そして、2個の符号(言語)が一致した文脈に係る文書が、290件抽出された。
抽出された文書数の観点では、長文、中文が1、短文では8であったのに対し、本用語では290に増えた。290件の中には、ユーザが希望する文書に類似する文書部分が含まれ得るが、ユーザにとって、290件のすべてを目視で確認することは困難である。従って、第1の文書に類似する文書を、ユーザが容易に確認し得る件数で抽出できたとは言い難い。よって、ユーザが希望する文書に類似する文書部分を、ユーザが容易に確認できる程度に抽出するためには、第1の文書に、用語(本例では、名詞である「減免」「申請」)に加えて、例1の長文、例2の中文、例3の短文と同様に、名詞以外の他の品詞に属する言語(例3では「をしたいのですが」の助詞「を」、動詞「し」、助動詞「たい」等)を含めることが効果的であると言える。
<従来の言語処理システムによる、文書の抽出処理例>
次に、実施例に比較して、従来の言語処理システムを使用して文書を抽出する処理の例を、図9〜図11を用いて説明する。なお、以下の処理例では、従来の言語処理システムの例として、特許庁HPの検索システムを使用する。本発明の言語処理装置10による処理と比較するため、例1〜例4と同一又は同様の長文、中文、短文、用語を用いて本検索システムの処理を検証する。
<例5>
図9〜図11は、従来技術における、長文を第1の文書として、ユーザが希望する文書を抽出する処理の例である。図9は、従来技術である特許庁HPの検索システムの検索欄に例1と同一の文書を入力した例である(出典:特許庁ウェブサイトにおける「入力文書に類似する文書の抽出調査」(https://www.jpo.go.jp/)を加工して作成)。図10は、例1と同一の文書に基づく文書の抽出結果の例である(出典:特許庁ウェブサイトにおける「入力文書に類似する文書の抽出調査」(https://www.jpo.go.jp/)を加工して作成)。図11は、抽出結果として表示された文書のリンクを押下後、表示された文書の例である(出典:特許庁ウェブサイトにおける「入力文書に類似する文書の抽出調査」(https://www.jpo.go.jp/system/process/tesuryo/genmen/genmen20190401/02_100.html)を加工して作成)。図9〜図11に表される図面は、例1と同一の文書に基づく検索及び文書抽出に係る一連の処理を表す図面として共通する。図面を図9〜図11に分割した理由は、図9に係る画面から遷移した画面が図10であり、図10から遷移した画面が図11となるため、1つの図面に収めることが困難だからである。また、上記一連の処理を図9、図10及び図11に分けて、断片的に表すことにより、後述する従来技術の説明に重要な点を拡大して表すことができ、従来技術の理解が容易になると考えるためである。
本例の長文として、例1と同一の長文「共同出願(共有特許権)について特許料の減免申請を行いたいのですが、特許料納付書をオンラインで提出する場合、持分を証明する書
面はどのように提出すればよいですか」を使用した。ユーザが特許庁HPの検索システムにおける検索欄に該長文を入力し、検索ボタンを押下すると、検索システムは、特許庁HPのウェブサイト内で、入力された長文に類似する文書を検索する。検索システムは、検索された文書を長文に類似する順に整理し、長文と最も類似する文書及びリンク(特定のURLへアクセスできる、文字列等)を検索画面の上部に表示する。図10の例では、画面
の上部に最も類似度が高い文書として「新減免制度に関するQ&A」のリンクが表示された。ユーザが該リンクを押下すると、画面が遷移し、「新減免制度の手続に関するQ&A」に関するFAQ(Frequently Asked Questions)(図11)が表示された。ユーザが入力した対象文書に類似する文書を抽出するためには、上記FAQの画面をユーザ自身がさらに確認することが必要となる。従って、本例では、ユーザが第1の文書を入力することにより、対象文書に意味的に類似する文書を簡便に抽出することができたとは言えない。
<例6>
例6は、従来技術における、中文を第1の文書として文書を抽出する処理の例である。本例の中文として、例2と同様の中文「共同出願の減免申請をしたいのですが、オンラインの場合どのように提出すればよいですか」を使用した。ユーザが特許庁HPの検索システムにおける検索欄に該中文を入力し、検索ボタンを押下すると、検索システムは、特許庁HPのウェブサイト内で、入力された中文に類似する文書を検索する。検索システムは、検索された文書を中文に類似する順に整理し、中文と最も類似する文書を及びリンクを検索画面の上部に表示する。例6では、最も類似度が高い文書として、画面の上部に「旧減免制度に関するQ&A」のリンクが表示された。ユーザが該リンクを押下すると、画面が遷移し、「旧減免制度に関するQ&A」に関するFAQ(Frequently Asked Questions)のリンク及び「減免申請手続き全般について」の案内が表示された。ユーザが入力した対象文書に類似する文書を抽出するためには、上記FAQの画面からさらにユーザ自身で各リンクを押下する、又は、案内を確認する等が必要となる。従って、本例では、ユーザが第1の文書を入力することにより、対象文書に意味的に類似する文書を簡便に抽出することができたとは言えない。
<例7>
例7は、従来技術における、短文を第1の文書として文書を抽出する処理の例である。本例の短文として、例3と同一の短文「減免申請をしたいのですが」を使用した。ユーザが特許庁HPの検索システムにおける検索欄に該短文を入力し、検索ボタンを押下すると、検索システムは、特許庁HPのウェブサイト内で、入力された短文に類似する文書を検索する。検索システムは、検索された文書を短文に類似する順に整理し、短文と最も類似する文書及びリンクを検索画面の上部に表示する。例7では、最も類似度が高い文書として、画面の上部に「新減免制度の手続に関するQ&A」のリンクが表示された。ユーザが該リンクを押下すると、画面が遷移し、「新減免制度の手続に関するQ&A」に関するFAQ(Frequently Asked Questions)が表示された。ユーザが入力した対象文書に類似する文書を抽出するためには、上記FAQをさらに確認する必要がある。従って、本例では、ユーザが対象文書を入力することにより、対象文書に意味的に類似する文書を簡便に抽出することができたとは言えない。
<例8>
例8は、従来技術における、用語を第1の文書として文書を抽出する処理の例である。本例の用語として、例4と同一の用語「減免申請」を使用した。ユーザが特許庁HPの検索システムにおける検索欄に該用語を入力すると、該用語を含む検索対象用語の候補がプルダウンメニューに表示される。例8の場合は、用語「減免申請」を含む「減免申請」及び「減免申請書」の2つが候補として表示された。ユーザが「減免申請書」を押下すると、検索システムは、特許庁HPのウェブサイト内で、入力された用語に類似する文書検索する。検索システムは、検索された文書を用語に類似する順に整理し、用語と最も類似す
る文書及びリンクを検索画面の上部に表示する。例8では、画面の上部に最も類似度が高い文書として「減免等の申請書の様式集」のリンクが表示された。ユーザが該リンクを押下すると、画面が遷移し、「減免等の申請書の様式集」として「特許料減免申請書」の様式へのリンク等が表示された。ユーザが入力した対象文書に類似する文書を抽出するためには、上記案内を確認等する必要がある。従って、本例では、ユーザが対象文書を入力することにより、対象文書に意味的に類似する文書を簡便に抽出することができたとは言えない。
以上、例5〜例8によると、従来技術を用いた言語処理は、第1の文書を長文、中文、短文、用語のいずれに設定した場合でも、ユーザが希望する文書を抽出できたとは言い難い。これに対して、本実施の形態に係る言語処理装置10を使用する場合は、第1の文書として、助詞等を含めた長文、中文、短文に基づき言語処理を行うことにより、ユーザが希望する文書を抽出できたと言える。
<まとめ>
本実施形態における処理では、言語処理装置10のCPU101において、ユーザが入力装置106に入力する第1の文書を入力文取得部1013が取得し、言語抽出部1014が形態素解析の辞書に基づき、形態素の単位に区切られた言語からなる文脈に変換する。従って、上記処理は、プログラムが、コンピュータに実行させる、第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第1の変換処理の一部と言える。
CPU101の抽出文書生成部1011は、ユーザが入力した第1の文書に含まれる各言語に基づき、それらの言語に対応する言語を有する抽出対象の文書をウェブコンテンツ等から取得する(ステップB1)。抽出文書生成部1011は、上記取得した文書を受け付け、形態素解析に用いられる辞書に基づき、形態素の単位に区切られた言語からなる文脈に変換する(ステップB2)。従って、上記処理は、第1の文書との関連性が判定される第2の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換する第2の変換処理の一部であると言える。
対象抽出部1016は、第1の文書が有する各言語に基づいて、第1の文書との関連性が判定される文書の対象IDに対応する文書部分をすべて取得する(ステップT5)。対象抽出部1016は、第1の文書の文脈に係る各言語と、第2の文書の文書部分に係る各言語を比較し、言語の一致を計数する(ステップT6)。従って、上記処理は、第1の文書の形態素と第2の文書の形態素とで、一致する形態素を計数する計数処理の一部であると言える。
対象抽出部1016は、第1の文書に係る各言語と、第1の文書との関連性が判定される文書の文書部分に係る各言語との、言語一致数の最大値を求める(ステップT8)。抽出結果出力部1017は、最大一致数を持つ文書部分を出力(抽出)する(ステップT9)。従って、上記処理は、計数処理の結果に基づき第1の文書と第2の文書との関連性を判定し、第1の文書との関連性が所定の条件を充足する第2の文書の一部またはすべてを抽出する抽出処理の一部であると言える。
本実施の形態では、第1の文書と第2の文書をともに、形態素に区切られた言語の単位に分割する。第1の文書に係る言語と、第2の文書に係る言語とで、言語の一致数を計数し、一致数に基づき両文書の関連性を判定し、関連性が強い文書を抽出し得る。従って、従来の言語処理技術における課題であった名詞、動詞、形容詞、形容動詞、助動詞、助詞等、品詞の判別が不要になる。また、係り受けなど、言語の関連も考慮が不要になる。よって、ユーザは、希望する文書に類似する文書を、簡便に抽出することができる。
実施例によれば、言語抽出部1014は、入力された第1の文書を、形態素解析の辞書に基づき、形態素の単位に区切られた言語からなる文書に変換する(ステップT3)。抽出文書生成部1011は、ウェブコンテンツ等から取得した、抽出対象の文書を形態素解析に用いられる辞書に基づき形態素の単位に区切られた言語からなる文書に変換する(ステップS4)。上記ステップT3及びステップS4の処理では、形態素(言語)が属する品詞の種類に応じて、形態素(言語)を文書から削除する処理は行われない。従って、上記の処理は、第1の変換処理及び第2の変換処理によって変換された区切られた文書は、形態素解析を実行したときに得られる品詞をすべて含む処理の一部であると言える。
例1乃至3で説明したように、第1の変換処理及び第2の変換処理によって変換された区切られた文書が、形態素解析を実行したときに得られる品詞をすべて含む場合、該文書に基づき、第1の文書に類似する文書として、言語処理装置10が抽出した文書は、例1(長文)の場合が1件、例2(中文)の場合が1件、例3(短文)の場合は8件であった。これらは、ユーザが文書を容易に確認することができる件数と言える。これに対して、例4(用語)に基づき、第1の文書に類似する文書として、言語処理装置10が抽出した文書は290件であった。これはユーザが容易に確認をすることができる件数と言えない。例4の用語は、名詞に属する言語(「減免」「申請」)のみを使用し、名詞以外の品詞に属する言語(例3「をしたいのですが」の場合は、助詞「を」、動詞「し」、助動詞「たい」等)を削除した文書であった。よって、例1〜3のように、第1の変換処理及び第2の変換処理によって変換された区切られた文書が、形態素解析を実行したときに得られる品詞をすべて含むことにより、ユーザが希望する文書に類似する文書部分を、ユーザが簡便に目視し得る件数で抽出することができる。
実施例では、言語整理部1015が、第1の文書の上記形態素に区切られた各言語について、重複する言語の有無を判定し、重複する言語がある場合は、各言語につき1つの言語のみになるよう、重複する言語を削除する(ステップT4)。抽出文書生成部1011は、第2の文書の形態素に区切られた各言語について、重複する言語の有無を判定し、重複する言語がある場合は、各言語につき1つの言語のみになるよう、重複する言語を削除する(ステップS5)。従って、上記処理は、第1の変換処理及び第2の変換処理が、第1の文書および前記第2の文書それぞれにおいて重複する形態素を削除する削除処理をさらに実行させることの一部と言える。
上記の削除処理が実行されることにより、対象抽出部1016は、第1の文書に係る文脈と、第2の文書に係る文脈とで、削除処理を行う前よりも少ない言語数で、言語の一致数を計数する処理を行うことができ、処理が容易になる。従って、ユーザが希望する文書に類似する文書部分を、簡便に抽出することができる。
実施例では、言語抽出部1014が、第1の文書を形態素解析の辞書に基づき、形態素の単位に区切られた言語からなる文書に変換する(ステップT3)。各言語に係る品詞に原形が存在する場合は、形態素に区切られた言語を原形に置き換える処理が行われ得る。抽出文書生成部1011は、第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた言語からなる文書に変換する(ステップS4)。各言語に係る品詞に原形が存在する場合は、形態素に区切られた言語を原形に置き換える処理が行われ得る。従って、上記の処理は、第1の変換処理及び第2の変換処理には、第1の文書および前記第2の文書それぞれにおける形態素を、形態素が属する品詞の原形に置換する置換処理をさらに実行させることの一部であると言える。
第1の文書に係る言語及び第2の文書に係る言語が原形に変換されることにより、言語の原形同士で言語が一致すると判定され、全体として言語の一致数が増加し得る。従って
、増加した言語の一致数に基づいて第2の文書部分を抽出することができ、ユーザが希望する文書に類似する文書部分を、簡便に抽出することができる。
実施例では、抽出文書生成部1011は、抽出対象となる第2の文書を、所定の文字数を有するページ単位の文書に分割し、文書部分を作成する(ステップS2)。対象抽出部1016は、第1の文書に係る言語と、第1の文書との関連性が判定される第2の文書の各文書部分に係る言語を比較し、言語の一致を計数する(ステップT6)。従って、上記処理は、第2の文書を、所定の文字数を有する文書部分に分割する分割処理をさらに実行させ、第1の文書の形態素と分割された文書部分の形態素とで、一致する形態素を計数させる処理の一部であると言える。
第2の文書が、所定の文字数を有する文書部分に分割され、第1の文書の形態素(言語)と第2の文書の分割された文書部分の形態素(言語)とで、一致する形態素を計数させることにより、第2の文書が有する文字数が膨大な場合でも、対象抽出部1016は、第1の文書が有する言語と、所定の文字数に分割された、第2の文書部分が有する言語とで、言語の一致を計数すればよい。従って、対象抽出部1016による計数処理を容易にすることができる。
実施例において、抽出文書生成部1011は、抽出対象となる第2の文書を、所定の文字数を有するページ単位の文書に分割し、文書部分を作成する(ステップS2)。対象抽出部1016は、第1の文書に係る言語と、第1の文書との関連性が判定される第2の文書の文書部分に係る言語を比較し、言語の一致を計数する(ステップT6)。従って、上記処理は、第2の文書が、ファイル単位で文書部分に分割されており、第1の文書の形態素と前記分割された文書部分の形態素とで、一致する形態素を計数させる処理の一部であると言える。
第1の文書が、ファイル単位で文書部分に分割されていることにより、対象抽出部1016は、第1の文書が有する言語と、所定の文字数に分割された、第2の文書部分に当たるファイルが有する言語とで、言語の一致を計数すればよい。従って、対象抽出部1016による計数処理を容易にすることができる。また、抽出結果出力部1017は、第1の文書に類似する文書を、第2の文書部分からファイル単位で抽出することができる。そのため、ユーザが抽出された文書を確認する場合は、ファイルに含まれた所定の文字数による文書のみを確認すればよい。よって、ユーザは抽出された文書を容易に確認することができる。
実施例では、抽出文書生成部1011は、第2の文書に係る各文書部分を、改行なしの文書に変換する(ステップS3)。従って、上記の処理は、第2の文書に改行が存在する場合、前記改行を削除する削除処理をさらに実行させることの一部であると言える。
第2の文書に改行が存在すると、形態素解析の際に、抽出文書生成部1011は、改行前後の文字が一連の形態素であると認識せず、各々の形態素であると認識し、各々の形態素について、形態素解析を行い得る。第2の文書に係る各文書部分を、改行なしの文書に変換することにより、本来は一連である形態素について、適切な形態素解析(形態素に区切られた言語への変換処理)を行うことができる。従って、対象抽出部1016は、第1の文書に係る言語と、適切に形態素解析された第2の文書に係る言語とで、言語の一致数を計数し得る。よって、ユーザが希望する文書に類似する文書部分を、適切に抽出することができる。
実施例において、対象抽出部1016は、第1の文書に係る各言語と、第1の文書との関連性が判定される第2の文書の文書部分に係る各言語との、言語一致数の最大値を求め
る(ステップT8)。抽出結果出力部1017は、一致数が最大である文書部分を抽出する(ステップT9)。抽出結果出力部1017は、最大一致数を持つ対象IDに対応する文書部分を出力装置107に出力し、処理を終了する(ステップT10)。従って、上記処理は、計数処理において、第2の文書から、一致する形態素数が最大である文書部分を抽出させることの一部であると言える。
CPU101が実行する計数処理において、一致する形態素数が最大である文書部分を第2の文書から抽出させることにより、第1の文書と意味が類似する可能性が高い文書を抽出することができる。よって、ユーザは、入力した第1の文書と意味が類似する文書を容易に得ることができる。
上記実施の形態では、対象抽出部1016は、第1の文書に係る言語と、所定の文字数に分割された、第2の文書部分に係る言語とで、言語の一致が最大となった文書部分を抽出する。しかし、対象抽出部1016の処理は、上記処理に限定される訳ではない。また、言語処理装置10は、出力する文書の条件を、入力装置106等において、ユーザが自由に指定できるようにしてもよい。例えば、ユーザの指定に基づき、言語の一致が最大となった文書部分に加え、言語の一致数が次点の文書部分を抽出してもよい。従って、上記処理は、計数処理において、第2の文書から、ユーザが指定する条件に基づき、言語処理装置10に文書部分を抽出させるようにしてもよい。
上記の実施例はあくまでも一例であって、本実施の形態はその要旨を逸脱しない範囲内で適宜変更して実施しうる。本実施の形態において説明した処理及び/又は手段は、技術的な矛盾が生じない限りにおいて、部分的に取り出して実施することも、自由に組み合わせて実施することもできる。
上記の実施例では、言語処理装置10(CPU101)が入力装置106からの操作信号を取得し、上記図7及び図8で例示されるような言語処理を実行した。しかし、図7及び図8の処理の少なくとも一部又は全部は言語処理装置10以外において実行されてもよい。例えば、通信I/F104及びネットワークNを介して言語処理装置10からアクセス可能なサーバ等の他の言語処理装置が図7及び図8の処理の少なくとも一部又は全部を実行してもよい。言語処理装置10は、通信I/F104及びネットワークNを介して、他の言語処理装置が実行した処理結果を受けて、出力装置107に出力するものであってもよい。
本発明は、上記の実施の形態で説明した機能を実装したコンピュータプログラムをコンピュータに供給し、当該コンピュータが有する1つ以上のプロセッサがプログラムを読み出して実行することによっても実現可能である。このようなコンピュータプログラムは、コンピュータのシステムバスに接続可能な非一時的なコンピュータ可読記憶媒体によってコンピュータに提供されてもよいし、ネットワークを介してコンピュータに提供されてもよい。非一時的なコンピュータ可読記憶媒体は、例えば、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクドライブ(HDD)等)、光ディスク(CD−ROM、DVDディスク、ブルーレイディスク等)など任意のタイプのディスク、読み込み専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、磁気カード、フラッシュメモリ、光学式カード、電子的命令を格納する
ために適した任意のタイプの媒体を含む。
10 言語処理装置
101 CPU
102 主記憶部
103 有線I/F
104 通信I/F
105 外部記憶部
106 入力装置
107 出力装置
1011 抽出文書生成部
1012 抽出文書記憶部
1013 入力文取得部
1014 言語抽出部
1015 言語整理部
1016 対象抽出部
1017 抽出結果出力部

Claims (10)

  1. コンピュータに、
    第1の文書を、形態素に区切られた文書に変換し、重複する形態素を削除し、第1の文脈を生成する第1の変換処理と、
    前記第1の文書との関連性が判定される第2の文書を、形態素に区切られた文書に変換し、重複する形態素を削除し、第2の文脈を生成する第2の変換処理と、
    前記第1の文書の形態素から重複が削除された前記第1の文脈と前記第2の文書の形態素から重複が削除された前記第2の文脈とで、一致する形態素を計数する計数処理と、
    前記計数処理の結果に基づき前記第1の文書と前記第2の文書との関連性を判定し、前記第1の文書との関連性が所定の条件を充足する前記第2の文書の一部またはすべてを抽出する抽出処理と、
    を実行させるプログラム。
  2. 前記第1の変換処理及び第2の変換処理によって変換された区切られた文書は、前記形態素解析を実行したときに得られる品詞をすべて含む請求項1に記載のプログラム。
  3. 前記第1の変換処理及び第2の変換処理は、前記第1の文書および前記第2の文書それぞれにおける形態素を、前記形態素が属する品詞の原形に置換する置換処理をさらに実行させる請求項1又は2に記載のプログラム。
  4. 前記第2の文書を、所定の文字数を有する文書部分に分割する分割処理をさらに実行させ、
    前記計数処理では、前記第1の文書の形態素と前記分割された文書部分の形態素とで、一致する形態素を計数させる請求項1からのいずれか一項に記載のプログラム。
  5. 前記第2の文書は、ファイル単位で文書部分に分割されており、前記計数処理は、前記第1の文書の形態素と前記分割された文書部分の形態素とで、一致する形態素を計数させる請求項1からのいずれか一項に記載のプログラム。
  6. 前記第2の文書に改行が存在する場合、前記改行を削除する削除処理をさらに実行させる請求項又はのいずれか一項に記載のプログラム。
  7. 前記計数処理では、前記第2の文書から、前記一致する形態素数が最大である文書部分を抽出させる請求項に記載のプログラム。
  8. 前記プログラムは、押下を検出する検索ボタンへの入力装置による操作により、前記第1の変換処理と前記第2の変換処理と前記計数処理と前記抽出処理を実行する請求項1から7のいずれか一項に記載のプログラム。
  9. コンピュータが
    第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換し、重複する形態素を削除し、第1の文脈を生成し、
    前記第1の文書との関連性が判定される第2の文書を、前記形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換し、重複する形態素を削除し、第2の文脈を生成し、
    前記第1の文書の形態素から重複が削除された前記第1の文脈と前記第2の文書の形態素から重複が削除された前記第2の文脈とで、一致する形態素を計数し、
    前記計数処理の結果に基づき前記第1の文書と前記第2の文書との関連性を判定し、前記第1の文書と関連性のある前記第2の文書の一部またはすべてを抽出することを特徴とする文書抽出方法。
  10. 第1の文書を、形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換し、重複する形態素を削除し、第1の文脈を生成し、
    前記第1の文書との関連性が判定される第2の文書を、前記形態素解析に用いられる辞書に基づき形態素に区切られた文書に変換し、重複する形態素を削除し、第2の文脈を生成し、
    前記第1の文書の形態素から重複が削除された前記第1の文脈と前記第2の文書の形態素から重複が削除された前記第2の文脈とで、一致する形態素を計数し、
    前記計数処理の結果に基づき前記第1の文書と前記第2の文書との関連性を判定し、前記第1の文書と関連性のある前記第2の文書の一部またはすべてを抽出する処理を実行するプロセッサを備える言語処理装置。
JP2020179942A 2020-10-27 2020-10-27 コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 Active JP6982347B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020179942A JP6982347B1 (ja) 2020-10-27 2020-10-27 コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020179942A JP6982347B1 (ja) 2020-10-27 2020-10-27 コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置

Publications (2)

Publication Number Publication Date
JP6982347B1 true JP6982347B1 (ja) 2021-12-17
JP2022070720A JP2022070720A (ja) 2022-05-13

Family

ID=79169994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020179942A Active JP6982347B1 (ja) 2020-10-27 2020-10-27 コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置

Country Status (1)

Country Link
JP (1) JP6982347B1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171220A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 文書管理装置および方法
JP2004272352A (ja) * 2003-03-05 2004-09-30 Nippon Telegr & Teleph Corp <Ntt> 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
JP2014106665A (ja) * 2012-11-27 2014-06-09 Hitachi Ltd 文書検索装置、文書検索方法
JP2015203961A (ja) * 2014-04-14 2015-11-16 株式会社toor 文書抽出システム
JP2019219724A (ja) * 2018-06-15 2019-12-26 富士通株式会社 評価プログラム、評価方法および情報処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171220A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 文書管理装置および方法
JP2004272352A (ja) * 2003-03-05 2004-09-30 Nippon Telegr & Teleph Corp <Ntt> 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
JP2014106665A (ja) * 2012-11-27 2014-06-09 Hitachi Ltd 文書検索装置、文書検索方法
JP2015203961A (ja) * 2014-04-14 2015-11-16 株式会社toor 文書抽出システム
JP2019219724A (ja) * 2018-06-15 2019-12-26 富士通株式会社 評価プログラム、評価方法および情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柳瀬 利彦: "ディベートの意見文章生成のための分散表現を用いた文の並び替え", 一般社団法人人工知能学会 研究会 DOCMAS:データ指向構成マイニングとシミュレーション研究会, JPN6021012648, 12 November 2014 (2014-11-12), JP, pages 1 - 8, ISSN: 0004482400 *

Also Published As

Publication number Publication date
JP2022070720A (ja) 2022-05-13

Similar Documents

Publication Publication Date Title
US11182445B2 (en) Method, apparatus, server, and storage medium for recalling for search
CN107025217B (zh) 同义转换文生成方法、装置、记录介质以及机器翻译系统
JP2007517338A (ja) サーチ品質の改善システムおよび改善方法
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
CN105095441A (zh) 一种信息获取方法及装置
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
US9875232B2 (en) Method and system for generating a definition of a word from multiple sources
JP6982347B1 (ja) コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP2008003656A (ja) 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
WO2023112101A1 (ja) コンピュータ言語処理における文書抽出プログラムを記憶した非一時的記憶媒体、意味的に類似する文書抽出方法および言語処理装置
WO2018179729A1 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP2019061522A (ja) 文書推薦システム、文書推薦方法および文書推薦プログラム
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
JP6114090B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
Bernhard et al. Elal: An emotion lexicon for the analysis of alsatian theatre plays
JP6695538B1 (ja) 類似文章検索装置およびプログラム
US20240311408A1 (en) Search prompt method, device, and medium
US11989500B2 (en) Framework agnostic summarization of multi-channel communication
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
WO2023171790A1 (ja) 文章作成支援装置及び文章作成支援プログラム
JP2018180890A (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
KR20190009061A (ko) 문자 상표 검색 시스템 및 검색 서비스 제공 방법
JP2009258887A (ja) 機械翻訳装置及び機械翻訳プログラム

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20201027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201027

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210413

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211112

R150 Certificate of patent or registration of utility model

Ref document number: 6982347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350