JP2021064143A - 文作成装置、文作成方法および文作成プログラム - Google Patents

文作成装置、文作成方法および文作成プログラム Download PDF

Info

Publication number
JP2021064143A
JP2021064143A JP2019188191A JP2019188191A JP2021064143A JP 2021064143 A JP2021064143 A JP 2021064143A JP 2019188191 A JP2019188191 A JP 2019188191A JP 2019188191 A JP2019188191 A JP 2019188191A JP 2021064143 A JP2021064143 A JP 2021064143A
Authority
JP
Japan
Prior art keywords
document
related document
sentence
section
sections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019188191A
Other languages
English (en)
Inventor
樹 八木田
Itsuki Yagita
樹 八木田
祐亮 城戸
Yusuke Kido
祐亮 城戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Legalscape
Legalscape Inc
Original Assignee
Legalscape
Legalscape Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Legalscape, Legalscape Inc filed Critical Legalscape
Priority to JP2019188191A priority Critical patent/JP2021064143A/ja
Publication of JP2021064143A publication Critical patent/JP2021064143A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】膨大な専門書類への横断的なアクセス及び高度な分析に基づく必要な専門書類へのピンポイントなアクセスを可能にする文作成装置、文作成方法および文作成プログラムを提供する。【解決手段】文作成システムにおいて、文作成装置は、文書の入力を受け付ける受付部と、文書を複数のセクションに分割する分割部と、分割部が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部と、を備える。【選択図】図4

Description

本発明は、文作成装置、文作成方法および文作成プログラムに関する。具体的には、専門書類を構造化して、専門書類間の参照を容易にする文作成装置、文作成方法および文作成プログラムに関する。
従来、複数の専門書類を複数の分類に振り分けて、専門書類を検索して参照したいユーザに検索しやすくする文作成装置、文作成方法および文作成プログラムが知られている。
特開2003−16055号公報 特許第6469919号公報
上記特許文献1のような文作成装置および文作成方法では、単語もしくは文節データの入力を文テンプレートの選択よりも先に行い、入力された全ての単語もしくは文節データの意味カテゴリ、および文字列に含まれる付属語が記述されている文テンプレートのみを用いて文候補を生成する。また、上記特許文献2のような文作成装置、文作成方法および文作成プログラムでは、判決文を適切に小文章に章立てし、その小文章の項目分けを行い、この項目分けまたは種類分けされた小文章から判決文に関連する他の判決文の小文章や評釈などの小文章の検索を行い、この項目分けまたは種類分けされた種類分けされた小文章から訴状などの文を作成する。
これまで、法律専門書や官公庁の資料等は様々な場所や媒体に分散しており、またそれらが検索のできないアナログ媒体であることも多くあった。一部デジタル化されている場合でも閲覧性・検索性の低い印刷用PDFデータそのままでの提供に限られることが多かった。そのため、法務実務家が必要な情報にアクセスするためには、文献等の特定、文献等の入手、文献等の中から目次や索引を駆使して必要な情報を見つけるというプロセスを必要とし、膨大な手間と時間を要していた。また、PDFビューアーに代表される従来型の電子書籍リーダーでは、単一キーワードタグによる全文検索や目次からの単純な移行は可能であるものの、複数キーワードタグによる章および節の絞り込みや書籍内外の関連した記述へのスムーズかつ並行したアクセスおよび閲覧ができなかった。上記特許文献1のような文作成装置及び文作成方法では、同じ文書内で文を作成することしかできないため他の文書にピンポイントにアクセスすることはできなかった。上記特許文献2のような文作成装置、文作成方法および文作成プログラムでは、判決文のみに対応した技術であるから、すべての文献から横断的に検索し、閲覧することはできなかった。よって上記先行技術では、高度かつ複雑な情報収集および分析を必要とする法律調査において、必要な情報を素早く正確に洗い出し、絞り込みたいというニーズに充分に対応することができなかった。
そこで、近年、文書中の参照や注記等、別の文献への言及がある場合、当該別の文献にワンクリックで移行でき、閲覧中の文献のある箇所が別の文献により参照されている場合には当該別の文献を関連文献として表示でき、文献の章、節等それぞれのセクションに対しキーワードタグが付与されていることによる、一般的な全文検索を超える精度の高い検索機能を有する文作成装置、文作成方法および文作成プログラムの提供が望まれている。
そこで本発明は、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や法律特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能な文作成装置、文作成方法および文作成プログラムを提供することを目的とする。
上記課題を解決するために、本発明の文作成装置は、文書の入力を受け付ける受付部と、文書を複数のセクションに分割する分割部と、分割部が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える。
本発明の文作成装置は、特定部が特定した参照先のセクションに文書からのリンクを生成するリンク生成部と、特定部が特定した参照先へのリンクを出力するリンク出力部と、をさらに備えてもよい。
判定部は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか1つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。
本発明の文作成装置は、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得部と、関連文書を出力する関連文書出力部と、をさらに備えてもよい。
関連文書取得部は、セクションおよび参照先のセクションから、関連文書を取得してもよい。
関連文書取得部は、文書とは異なる他の文書から、関連文書を取得してもよい。
関連文書取得部は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。
また、上記課題を解決するために、本発明の文作成方法は、文書の入力を受け付ける受付ステップと、文書を複数のセクションに分割する分割ステップと、分割ステップで分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成ステップと、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定ステップと、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定ステップとを備える。
本発明の文作成方法は、特定ステップが特定した参照先のセクションに文書からのリンクを生成する生成ステップと、特定ステップが特定した参照先へのリンクを出力する出力ステップと、をさらに備えてもよい。
判定ステップは、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか1つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。
本発明の文作成方法は、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得ステップと、関連文書を出力する関連文書出力ステップと、をさらに備えてもよい。
関連文書取得ステップは、セクションおよび参照先のセクションから、関連文書を取得してもよい。
関連文書取得ステップは、文書とは異なる他の文書から、関連文書を取得してもよい。
関連文書取得ステップは、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。
また、上記課題を解決するために、本発明の文作成プログラムは、コンピュータに、文書の入力を受け付ける受付機能と、文書を複数のセクションに分割する分割機能と、分割機能が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成機能と、セクション中に参照を示唆する文言が含まれるか否かを判定する判定機能と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定機能とを実現させる。
本発明の文作成プログラムは、コンピュータに、特定機能が特定した参照先のセクションに文書からのリンクを生成するリンク生成機能と、特定機能が特定した参照先へのリンクを出力するリンク出力機能と、をさらに実現させてもよい。
判定機能は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか1つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。
本発明の文作成プログラムは、コンピュータに、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得機能と、関連文書を出力する関連文書出力機能と、をさらに実現させてもよい。
関連文書取得機能は、セクションおよび参照先のセクションから、関連文書を取得してもよい。
関連文書取得機能は、文書とは異なる他の文書から、関連文書を取得してもよい。
関連文書取得機能は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。
本発明の文作成装置、文作成方法および文作成プログラムによれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能になる。
文作成装置を含むシステムによる処理の一例を説明するための模式図である。 文作成装置を含むシステムの概略構成の一例を示す図である。 サーバの概略構成の一例を示す図である。 本発明に係る文作成装置の構成要素を示す図である。 本発明に係る文作成装置のインタフェースを示す図である。 本発明に係る文作成装置のインタフェースを示す別の図である。 本発明に係る文作成装置のインタフェースを示すさらに別の図である。 本発明に係る文作成方法を示すフローチャートである。 本発明の実現方法の概要を示す図である。 本発明の実現方法の第一段階を示す図である。 本発明の実現方法の第二段階を示す図である。 本発明の実現方法の第三段階を示す図である。 本発明の実現方法の第四段階を示す図である。 本発明の実現方法の第五段階を示す図である。
以下、本開示の一側面に係る文作成装置、文作成方法および文作成プログラムについて図を参照しつつ説明する。但し、本開示の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
(文作成システム1による処理の概要)
図1は、文作成システム1による処理の一例を説明するための模式図である。
文作成システム1は、1つ以上のコンピュータ2から複数の専門書類を受信し、サーバ3に記憶し、ユーザの端末装置4からの検索要求に応じて専門書類を提供する。専門書類とは法律文書、技術文書、論文、技術雑誌など幅広い文書を含んでよく、通常はテキストデータからなる。これらの文書は、テキストデータ以外にもテキストデータに変換可能な情報を含んでいれば、画像データ(動画像、静止画像)や音声データであってもよい。
サーバ3には、専門書類データベース311が記憶されている。専門書類データベース311には複数の専門書類が専門書類識別情報(専門書類ID)とともに記憶されている。また、専門書類データベース311は、本実施の形態においては、サーバからなっているが、文作成システム1の外部に存在してもよい。
ユーザは、サーバ3に記憶されている専門書類を検索したい場合には、端末装置4を用いて、検索要求をサーバ3に送信する。サーバ3は、受信した検索要求に応じてサーバ3の専門書類データベース311から専門書類を抽出して、ユーザの端末装置4に送信する。
ユーザは、端末装置4と接続されている文作成装置100において、文書データをインタフェースに入力し、その文書データについて、文書内の閲覧したい情報を検索したり、文書内容の説明文が表示される設定がされた状態の文書データに変換したりすることができる。
なお、上述した図1の説明は、本発明の内容への理解を深めるための説明にすぎない。本発明は、具体的には、次に説明する各実施の形態において実施され、且つ、本発明の原則を実質的に超えずに、さまざまな変形例によって実施されてもよい。このような変形例はすべて、本発明および本明細書の開示範囲に含まれる。例えば、本実施の形態において、法律文書を検索する構成について説明しているが、契約書を元に専門書類を検索する構成としてもよい。更に、本実施の形態にかかる文は、法律文書に限定されて解釈される必要もない。すなわち、互いに関係性のある文章同士の検索に用いることができる。また、本発明の文は、法律文書に限定されず、他の文に適応することができる。例えば、論文やブログなどにも適用することができる。
(文作成システム1の概略構成)
図2は、文作成システム1の概略構成の一例を示す図である。
文作成システム1は、複数のコンピュータ2、2、2・・・と、サーバ3と、ユーザの端末装置4とを有する。以下では、複数のコンピュータ2を単にコンピュータ2と称する場合がある。コンピュータ2、2、2・・・およびサーバ3は、例えば、ネットワーク5などの通信ネットワークを介してそれぞれ相互に接続される。更に、ユーザの端末装置4およびサーバ3は、例えば、ネットワーク5などの通信ネットワークを介してそれぞれ相互に接続される。文作成装置100はサーバ3に接続されている。また、ここではネットワーク5が1つ例示されているが、ネットワーク5が複数のネットワークからなる場合は、それぞれのネットワーク間にゲートウェイ(図示しない)を適宜設けてもよい。コンピュータ2で実行されるプログラム(例えば、閲覧プログラム)と、サーバ3で実行されるプログラム(例えば、管理プログラム)とは、ハイパーテキスト転送プロトコル(HTTP)などの通信プロトコルを用いて通信を行う。
(サーバ3の概略構成)
図3は、サーバ3の概略構成の一例を示す図である。
サーバ3には、複数の専門書類を記憶するデータベースが記憶されている。専門書類データベース311には複数の専門書類が専門書類識別情報(専門書類ID)とともに記憶されている。これらの専門書類は、サーバ3がコンピュータ2から受信し、端末装置4により検索される。そして、サーバ3は、端末装置4により入力された検索条件に基づいて専門書類を検索し、端末装置4に送信する。以上のような機能を実現するために、サーバ3は、サーバ通信部314、サーバ記憶部315、およびサーバ処理部316を更に備える。
サーバ通信部314は、サーバ3をネットワーク5に接続するための通信インタフェース回路を有する。サーバ通信部314は、コンピュータ2から専門書類の文書データを受信する。更に、サーバ通信部314は、端末装置4から受信した検索条件などのデータをサーバ処理部316に送信する。そして、サーバ通信部314は、サーバ処理部316から得られた抽出結果や生成された画面構成を端末装置4に送信する。サーバ通信部314は、上述以外の情報をコンピュータ2や端末装置4に送信または受信することができる。
サーバ記憶部315は、例えば、半導体メモリ、磁気ディスク装置および光ディスク装置の内の少なくとも一つを有し、バスを介してサーバ3と接続される。サーバ記憶部315は、サーバ処理部316による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データなどを記憶する。例えば、サーバ記憶部315は、ドライバプログラムとして、サーバ通信部314を制御する通信デバイスドライバプログラムなどを記憶する。コンピュータプログラムは、例えばCD−ROM、DVD−ROMなどのコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラムなどを用いてサーバ記憶部315にインストールされてもよい。また、サーバ記憶部315は、専門書類データベース311および契約書データベース312などを記憶する。
サーバ処理部316は、コンピュータ2から受信した文を章立てしたり、節立てしたりして、文、章および節を対応付けてサーバ記憶部315に記憶する。更にサーバ処理部316は、ユーザの端末装置4から受信した各種検索要求に応じて検索結果を抽出したり、抽出した検索結果をユーザの端末装置4に送信すべく画面構成を生成したり、生成された画面構成をサーバ通信部314に送ったりする。これらの機能は、サーバ処理部316が備えるプロセッサで実行されるプログラムにより実現される機能モジュールである。あるいは、これらの各部は、独立した集積回路、マイクロプロセッサ、またはファームウェアとしてサーバ3に実装されてもよい。
[文作成装置]
図面を参照して、本実施形態に係る文作成装置100について説明する。文作成装置100は、専門書類の入力を受け付けて、この専門書類に解説を加える変換処理を行う注釈付与装置である。ここで解説を加えるとは、専門書類の文中に含まれる参照文言に対して、その参照先の文書がある文へのリンクを貼ったり、専門書類に含まれる専門用語等の解説をする文書データを付与したり、その専門用語を解説する他の文書へのリンクを貼ったりすることをいう。
図4に示すように、文作成装置100は、受付部10、分割部20、キーワードタグ生成部30、制御部40、リンク生成部70、リンク出力部80、関連文書取得部90および関連文書出力部110を備える。
文作成装置100では、専門書類を構造化する。具体的には、まず、PDF情報等の構造化されていない(以下、構造化レベル0という)データを構文的解析により構造化する第一段階の構造化(以下、構造化レベル1という)を行う。本実施形態では、専門書類のPDF情報等の構造化されていないデータから、章構造・節構造等の専門書類の階層構造(以下、特に章・節・段落等の文書階層構造上のかたまりをセクションと呼ぶことにする)や、柱書、注釈等を抽出する。それにより、ウェブ上での閲覧に適した閲覧が可能になり、全専門書類に本文と連動する目次を表示することができる。次に、第一段階の構造化で構文的に構造化された文書データを意味的解析により構造化する、第二段階の構造化(以下、構造化レベル2という)を行う。本実施形態では、3つのことを行う。まず、1つ目として全ての法律文書の各セクションに対し、その内容を的確に表すキーワードタグ(例えば、重要語句、法令名、文章名)を付与することで、専門書類自体やそのセクションとタグとの関係性を記述する。それにより、キーワードタグを用いて閲覧したい専門書類をピンポイントに検索することが可能になる。2つ目として、専門書類間の明示的な参照関係を抽出する。これにより、専門書類中の参照リンクを辿り、引用されている文献を閲覧できるようになる。加えて、閲覧中の専門書類を参照しているような別の文書のセクションを、サジェストすることが可能になる。3つ目として、1つ目で付与されたキーワードタグを用い、全専門書類のセクション同士の関係性を推定する。この推定の際には、推定の精度を高めるために、2つ目で付与された明示的な参照関係を用いることもできるし、加えてキーワードタグの生成時あるいは生成とは独立のタイミングで、キーワードタグどうしの相互の関係性を推定しておくこともできる。これにより、閲覧中の文章を明示的には参照していない別の文章のセクションであって、関連するようなものをサジェストすることが可能になる。
受付部10は、ネットワーク5を介して、ユーザの端末(PC、スマートフォン、タブレット端末などの情報処理装置)から、通信により、文書の入力を受け付ける通信インタフェースである。
受付部10が受け付ける文書とは、法律文書であってもよく、その他の専門書類であってもよい。この段階では、文書は構造化されていないデータであり、PDFファイルの状態であってもよく、テキストデータであってもよく、ワードデータであってもよい。これらはあくまで例示であり、その他の態様でも実現できる。この段階は構造化レベル0である。
分割部20は、受付部10が受け付けた文書を複数のセクションに分割する。図5の左部分に示すように、構造化されていないPDFファイルのデータは、タイトル、章構造・節構造等の文書の階層構造、柱書、本文、注釈が区別なく一体となった構造となっている。例えば、タイトルと本文とが一体となっていたり、ページ番号が文章と一体となっていることがある。特に、文の途中にある単語やフレーズについて注釈などが入っていたりした場合に、文の途中でも改行がされ、注釈の記載が始まるような場合もある。そのような場合には、改ページをすることになるので、文の途中で文の続きが次のページに記載されてしまうことになる。このような不都合を解消するため、本実施形態における文作成装置100では、タイトルの部分と、文章のうち注釈の記載の前までの部分と、注釈の記載の部分と、というように、1つのまとまった意味のある部分を1つのセクションとして、複数のセクションに分割部20が分割する。例えば、図5の右部分に示すように、「第三者割当て」というタイトルがついている文書がある場合、「(f)第三者割当て」を1つのセクション、「第三者割当ては、・・・支配権の移動」を1つのセクション、「注17」・・・企業開示ガイドラインC III(1)(4)」を1つのセクションというように複数のセクションに分割する。つまり、改ページにより分断されていた「支配権の移動」と「を伴う第三者割当て」を、「支配権の移動を伴う第三者割当て」という一連の文章として認識する。この段階が構造化レベル1である。この「第三者割当て」のようなキーワードタグとしては、法律文書であれば、条項の文言や専門用語や法条名(例えば、保険業法272条2項)が対象になる。技術用語の場合は、各技術分野の専門書に掲載されている専門用語やJIS用語が対象となる。論文では雑誌名、タイトル、著者名などが対象となる。技術雑誌では雑誌名、タイトル、著者名、各技術分野の専門用語やJIS用語が対象となる。このキーワードタグで文書を検索することで、そのキーワードタグが付されている章や節を閲覧することができ、通常のキーワード検索よりも検索の精度が向上する。
この構文的構造化の実現方法において、データを記録する形式はHTMLベースのデータフォーマットであってもよい。HTML形式は機械可読性が高いので、ウェブ上での操作および閲覧に最適である。ただし、HTMLベースのデータフォーマットは一例であり、XML等の他のデータフォーマットであってもよい。このデータフォーマットへの変換は、教師ありモデルを用いた機械学習により得られた学習モデルにより、全自動的に行われてもよく、半自動的に行われ、この学習モデルにより半自動的に行われた構文的構造化により得られた分割結果を人間が修正してもよく、全部人間が行ってもよい。
次に、構造化レベル2の意味的構造化について、図9〜14を用いて説明する。
図9は、構造化レベル2の意味的構造化の実現方法を示すフローチャートである。まず、キーワードタグ集合を生成し、それに基づき、セクションごとにキーワードタグを付与し(以下、セクション−キーワードタグ間の関係性という)、キーワードタグどうしの階層関係を解析する(以下、キーワードタグ−キーワードタグ間の関係性という)。また、セクション間の参照関係を検出する(以下、セクション−セクション間の明示的に存在する関係性という)。そして、セクション−キーワードタグ間の関係性に基づき、セクションどうしの関連性の解析を行う(以下、セクション−セクション間の真の関係性という)。また、任意に、キーワードタグ−キーワードタグ間の関係性に基づきセクション−キーワードタグ間の関係性に基づき、セクションどうしの関係性の解析を行ってもよく、セクション−セクション間の明示的に存在する関係性に基づきセクション−キーワードタグ間の関係性に基づき、セクションどうしの関係性の解析を行ってもよい。キーワードタグ集合の生成と、セクション−キーワードタグ間の関係性と、キーワードタグ−キーワードタグ間の関係性とを独立の手法として段階的に行ってもよく、同時に行ってもよい。
図10は、キーワードタグ集合を生成する手法を具体的に説明している。法律書籍等の索引、辞書、Wikipediaなどの単語や、法律書籍、法令、判例、官公庁資料などの大量の専門書類を入力として、TextrankやRapid Automatic Keyword Extraction等のアルゴリズムを用いてキーワードタグ集合を出力する。図6は、構造化レベル2により意味的構造化された文書データを示すインタフェースを示している。例えば、「注17」を注釈への参照として認識し、その下のセクションを注釈のセクションとして認識したり、法律の条項名を変色させ、その変色した法律の条項名の部分を選択すれば他の文書の他のセクションに移動することを実現するためのデータを作成することができる。キーワードタグ生成部30は、分割部20が分割した複数のセクションごとにキーワードタグを生成する。
キーワードタグ集合の生成の別の手法としては、自立語の類似度を考え、文書中に出現する自立語の集合の中で最も多くの語との類似性を認められる語を選ぶ手法(以下、手法Xと呼ぶ)が用いられる。これは、自立語の類似度は語の共起に基づいて考えられ、具体的にはword2vecを用いる。word2vecは語の共起の予測に用いる機械学習モデルの隠れ層の行列により表現される。また、最も多くの語との類似性を認められる語は、word2vecのコサイン距離を重みとした有向グラフのページランクを考えることで選ぶことができる。
キーワードタグ集合の生成の具体的な手法としては、また、文書からTextrankやRapid Automatic Keyword Extraction等のアルゴリズムにキーワードタグの組み合わせであるキーフレーズを選ばせ、その中から特徴的な単語を選ぶ手法が用いられる。より具体的には、キーフレーズの選択には機械学習を用いる手法が有力であり、入力は文書全体で出力はキーフレーズというような学習と予測を行う。
キーワードタグ集合の生成の具体的な手法としては、また、文書に出現する自立語をノードとしnワード以内での単語の共起を枝とした、出現順を方向とする有向グラフで単語集合を表現し、各ノードに対して何らかのスコアを算出し、最もスコアの高いノードを選ぶ手法が用いられる。各ノードのスコアの算出の代表的なアルゴリズムとしてはページランクのアルゴリズムが挙げられる。
次に、キーワードタグ生成部30は、キーワードタグ集合を生成し、生成されたキーワードタグ集合と、分割部20が文書データを分割して作ったセクションの集合を入力として、木構造になったキーワードタグ集合が出力される。具体的には、Textrank、Rapid Automatic Keyword Extraction、Word2Vec、Topic Model等のアルゴリズムを用いて、セクションごとにセクションを意味的に表すキーワードタグが付与される。図7は、この付与されたキーワードがタグとして、各章や各節の下に表示されているユーザインタフェースである。例として、1つのセクションに「(f)第三者割当て」が項目立てされており、その項目の下に「第三者割当て」および「規制」がタグとして付与されており、文中に「第三者割当て」という語が記号T1で示すようにハイライトされ、「規制」の内容を示す法律の条項が記号T2で示すようにハイライトされている。
タグを付与する方法としては、キーワードタグ生成部30がキーワードタグを生成する上記具体的手法に加え、上記具体的手法の実行結果からそのままキーワードタグを付与する方法と、上記具体的手法の結果からキーワードタグごとの重みづけ(tf−idfなどを用いる)のあるキーワードタグ集合を生成し、各セクションに対して上位n位のキーワードタグのみをキーワードタグとして付与する方法が考えられる。また、この二手法を並行して実施し、選ばれたキーワードタグ集合の和集合をキーワードタグとする方法と、選ばれたキーワードタグ集合の積集合をキーワードタグとする方法がある。
図12は、キーワードタグどうしの階層関係の解析、つまりキーワードタグ−キーワードタグ間の関係性を示す手法を示している。この手法により、キーワードタグ集合とセクションの集合とを入力として、木集合になったキーワードタグ集合が出力される。キーワードタグどうしの関係の解析とは、選ばれた二つのキーワードタグについて、互いに類似するのか、また類似する場合にはその類似の度合いがどの程度であるかを解析すること、また、選ばれたキーワードタグが指示する概念どうしが包含関係にあるのか、また包含関係にある場合にどちらがどちらを包含するのかを解析することをいう。具体的には、類似性の評価方法として、キーワードタグの付与の際に、より多くの文に同時に付与されたキーワードタグは類似性が高いと認める手法と、キーワードタグ集合の生成の際に計算された共起度が高い対については類似性が高いと認める手法とがある。また、包含性の評価方法として、例えば、ある範囲においてaが出現する条件において、そこにaとbが共起する条件付き確率と、ある範囲においてbが出現する条件において、そこにbとaが共起する条件付き確率を考えたとき、後者が前者よりも大きい場合、aはbを包含するキーワードタグであると考える。同様に、前者が後者よりも大きい場合、bはaを包含するキーワードタグであると考えることができる。
また、手法Xと同じ方法により、aの方がbよりもより多くの語との類似性が認められる場合、aはbを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、bの方がaよりもより多くの語との類似性が認められる場合、bはaを包含していると考えることができる。逆に、bの方がaよりもより多くの語との類似性が認められる場合、aはbを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、aの方がbよりもより多くの語との類似性が認められる場合、bはaを包含していると考えることができる。
また、書籍の文章の論理構造において、より下位の章の見出しに出現するキーワードタグは、より上位の章の見出しで出現するキーワードタグに包含されると考えることができる。
あるいは、例えば、書籍の索引に「目論見書」と「目論見書の虚偽記載」という二つの項目があれば、後者は前者の文字列に付して助詞「の」を用いて下位概念を説明しているものと推定し、「虚偽記載」は「目論見書」の下位概念であるということが分かるというように、索引を用いて項目間の部分文字列関係からキーワードタグ間の関係を推定できる。同様に、目次の階層構造を用いることもできる。
あるいは、文章の係り受け等を解析し、キーワードタグ間の上位・下位を判定することもできる。
図13は、セクション間の明示的な参照関係(セクション−セクション間の明示的に存在する関係性)を検出する手法を示している。制御部40は、判定部50と、特定部60とを備えている。判定部50は、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する。具体的には、「注:」、「〜参照」、「例、」などの文言や、法律の条項(例えば、特許法第2条1項。例示であって、他に例えば保険業法272条2項であってもよい)、業界用語が含まれている場合には、それらを参照表記であることが分かっている文字列の集合として認識する。また、参照表記であることが分かっていないセクションの集合からも、参照を示唆する文言が含まれているか否かを判定する。
このセクション間の明示的な参照関係(セクション−セクション間の明示的に存在する関係性)を検出する手法において、判定部50は、パターンマッチを用いてもよく、系列ラベリング問題としてモデリングした上で条件付き確率場等またはニューラルネットワークを用いてもよく、もしくはニューラルネットワー用いてもよい。
参照表記であることが分かっていない文字列を含む、セクションに分かれた大量の法律文書であるセクションの集合に基づくセクション間の明示的な参照関係の解析手法としては、書籍等のPDFデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くことおよびニューラルネットワークを使用することが挙げられる。
参照表記であることが分かっている文字列を含む文字列の集合に基づくセクション間の参照関係の解析手法としては、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することを挙げることができる。
系列ラベリングとは、単語列やトークン列等の系列に対して、系列を構成する各要素に対して全体を通しての最適性を考慮してラベル付けする、という問題設定である。ここでは、セクションの集合と文字列の集合とから、別セクションへのリンクが付与されたセクションの集合を出力する。この系列ラベリングを解くための手法として、条件付き確率場を用いて解く手法と、ニューラルネットワークベースの手法を用いて解く手法とがあり、その際に副次的にリンク先の特定も同時に解くことができる場合がある。
また、明示的な参照関係の解析手法としてパターンマッチがある。パターンマッチは、書籍等の中でどのような表現がリンクとして使われがちかという情報をもとに系列ラベリングを解く手法である。すなわち、「詳細は○○を参照せよ」と書いてあれば、この部分は○○へのリンクと思われる、というようなパターンを用意することにより、自動または半自動または手動で明示的な参照関係を解析できる。
また、上記セクション間の明示的な参照関係の解析手法を用いて確率的に同定された参照先のセクション候補群のうちに、参照先のセクションである確率が閾値よりも高いものが無い場合に、専門書類データベース311に候補群を記録しておき、参照先候補をユーザに提示し選択させ、その選択を蓄積することにより、検索の精度を向上させる。
書籍等のPDFデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することにより、別セクションへのリンクが付与されたセクションの集合が出力される。これらの手法は組み合わせて用いてもよく、どれか一つの手法を単独で用いてもよい。
このセクション間の明示的な参照関係(セクション−セクション間の明示的に存在する関係性)を検出する手法において、特定部60は、判定部50が参照を示唆する文言が含まれると判定した場合に、参照先のセクションを特定する。
このセクション間の明示的な参照関係(セクション−セクション間の明示的に存在する関係性)を検出する手法において、リンク生成部70は、特定部60が特定した参照先のセクションに文書からのリンクを生成する。
このセクション間の明示的な参照関係(セクション−セクション間の明示的に存在する関係性)を検出する手法において、リンク出力部80は、特定部60が特定した参照先へのリンクを出力する。
図14は、セクションどうしの関連性(セクション−セクション間の真の関係性)の解析手法を示している。この解析手法において、セクションごとにセクションを意味的に表すキーワードタグが付与されたセクションの集合と、別セクションへのリンクが付与されたセクションの集合と、木構造になったキーワードタグ集合とを入力として、セクションごとの関連性(類似度等)が出力される。
このセクションどうしの関連性(セクション−セクション間の真の関係性)の解析手法において、関連文書取得部90は、ある文書に類似する関連文書を示す情報を取得する。関連文書取得部90は、セクションおよび参照先のセクションから、関連文書を取得する。また、関連文書取得部90は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得する。
具体的には、入力としてセクションが与えられており、各セクションにはリンクやキーワードタグが付与されているというような状況設定で、手法としては、セクション群をリンクやキーワードタグ、セクションの位置、セクションに出現する語彙などを手掛かりにして粗くネットワーク構造化し、その構造上で粗い情報をもとにさらに関連性を精緻化していく手法が挙げられる。例えば、セクションAとセクションBは、同じセクションCへのリンクを含むとすると、このとき、まずAとC、およびBとCを「リンクがある」という情報を手掛かりに粗いネットワーク上で結び、こうして粗いネットワークを構築したうえで、AとC、BとCが直接連結していることをもとにAとBもある程度関連していると推論し、AとBも結ぶ、というようなことを行うことで、関連性ネットワークを構築できる。その関係性ネットワークとはコンピュータ科学的には「グラフ」と呼ばれるデータ構造の1つで、グラフ理論の問題として定式化して解析することが可能である。もう一つの手法は埋め込みをベースとするもので、各セクションは、上記ネットワーク構造化と同様、リンクやキーワードタグなど複数の手がかりを持っており、これらを使って各セクションを低次元ユークリッド空間上のベクトルに対応付けることができる。こうすることで、ベクトルとベクトルの類似性を計算する既知の手法を使って、セクションとセクションの類似性を計算できる。
このセクションどうしの関連性(セクション−セクション間の真の関係性)の解析手法において、関連文書出力部110は、関連文書取得部90が取得した関連文書を出力する。
このような構成を備えることにより、本実施形態に係る文作成装置によれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことを実現させることが可能になる。
[文作成方法]
以下に、図8を参照して、本発明に係る文作成方法について説明する。
文作成方法は、受付ステップS10、分割ステップS20、キーワードタグ生成ステップS30、判定ステップS40、検出ステップS41、同定ステップS42、特定ステップS50、リンク生成ステップS60、リンク出力ステップS70、関連文書取得ステップS80および関連文書出力ステップS90を含む。以下、それぞれ具体的に説明する。
受付ステップS10では、受付部10が、ネットワーク5を介して、ユーザの端末(PC、スマートフォン、タブレット端末などの情報処理装置)から、通信により、文書の入力を受け付ける通信インタフェースである。
受付部10が受け付ける文書とは、法律文書であってもよく、その他の専門書類であってもよい。この段階では、文書は構造化されていないデータであり、PDFファイルの状態であってもよく、テキストデータであってもよく、ワードデータであってもよい。これらはあくまで例示であり、その他の態様でも実現できる。
分割ステップS20は、分割部20が、受付部10が受け付けた文書を複数のセクションに分割する。図5の左部分に示すように、構造化されていないPDFファイルのデータは、タイトル、章構造、節構造、柱書、本文、注釈が区別なく一体となった構造となっている。例えば、タイトルと本文とが一体となっていたり、文の途中にある単語やフレーズについて注釈などが入ったりした場合に、文の途中でも改行がされ、注釈の記載が始まるような場合がある。そのような場合には、改ページをすることになるので、文の途中で文の続きが次のページに記載されてしまうことになる。このような不都合を解消するため、本実施形態における文作成装置100では、タイトルの部分と、文章のうち注釈の記載の前までの部分と、注釈の記載の部分と、というように、1つのまとまった意味のある部分を1つのセクションとして、複数のセクションに分割部20が分割する。例えば、図5の右部分に示すように、「第三者割当て」というタイトルがついている文書がある場合、「(f)第三者割当て」を1つのセクション、「第三者割当ては、・・・支配権の移動」を1つのセクション、「注17」・・・企業開示ガイドラインC III(1)(4)」を1つのセクションというように複数のセクションに分割する。つまり、改ページにより分断されていた「支配権の移動」と「を伴う第三者割当て」を、「支配権の移動を伴う第三者割当て」という一連の文章として認識する。これを構文的構造化と呼ぶ。このキーワードタグで文書を検索することで、そのキーワードタグが付されている章や節を閲覧することができ、通常のキーワード検索よりも検索の精度が向上する。
この構文的構造化の実現方法において、データを記録する形式はHTMLベースのデータフォーマットであってもよい。HTML形式は機械可読性が高いので、ウェブ上での操作および閲覧に最適である。ただし、HTMLベースのデータフォーマットは一例であり、XML等の他のデータフォーマットであってもよい。このデータフォーマットへの変換は、教師ありモデルを用いた機械学習により得られた学習モデルにより全自動的に行われてもよく、半自動的に行われ、この学習モデルにより半自動的に行われた構文的構造化により得られた分割結果を人間が修正してもよく、全部人間が行ってもよい。
以上、構文的構造化の手法について述べたが、次に構造化レベルの第2段階としての意味的構造化について説明する。図6に示すように、例えば、「注17」を注釈として認識し、その下のセクションを注釈のセクションとして、法律の条項名を変色させ、その変色した法律の条項名の部分を選択すれば他の文書の他のセクションに移動することを実現できるためのデータを作成することができる。キーワードタグ生成ステップS30は、分割部20が分割した複数のセクションごとにキーワードタグを生成する。具体的には、法律書籍等の索引、辞書、Wikipediaなどの単語や、法律書籍、法令、判例、官公庁資料などの大量の専門書類から、TextrankやRapid Automatic Keyword Extraction等のアルゴリズムを用いてキーワードタグ集合を生成する。
キーワードタグ集合の生成の別の手法としては、自立語の類似度を考え、文書中に出現する自立語の集合の中で最も多くの語との類似性を認められる語を選ぶ手法(以下、手法Xと呼ぶ)が用いられる。これは、自立語の類似度は語の共起に基づいて考えられ、具体的にはword2vecを用いる。word2vecは語の共起の予測に用いる機械学習モデルの隠れ層の行列により表現される。また、最も多くの語との類似性を認められる語は、word2vecのコサイン距離を重みとした有向グラフのページランクを考えることで選ぶことができる。
キーワードタグ集合の生成のさらに別の手法としては、また、文書からTextrankやRapid Automatic Keyword Extraction等のアルゴリズムにキーワードタグの組み合わせであるキーフレーズを選ばせ、その中から特徴的な単語を選ぶ手法が用いられる。より具体的には、キーフレーズの選択には機械学習を用いる手法が有力であり、入力は文書全体で出力はキーフレーズというような学習と予測を行う。特徴的な単語の選択には、tf−idfなどを用いる。
具体的な手法としては、また、文書に出現する自立語をノードとしnワード以内での単語の共起を枝とした、出現順を方向とする有向グラフで表現し、ノードのスコアを算出し、最もスコアの高いノードを選ぶ手法が用いられる。各ノードのスコアの算出の代表的なアルゴリズムとしてはページランクのアルゴリズムが挙げられる。
具体的な手法としては、また、自立語の共起度を自立語の共起頻度で割った値をスコアとし、スコアが最大となりかつコーパス上に存在する自立語の順列を考える手法が用いられる。より具体的には、文書に出現する自立語を各行列に対応させた正方行列を考え、各要素は対応する語のnワード以内での共起の回数とし、このとき、共起度は行および列の和、共起頻度は行および列の中での最大値である。
次に、キーワードタグ生成ステップS30は、キーワードタグ生成部30が生成したキーワードタグ集合からキーワードタグを生成する。具体的には、キーワードタグ生成部30が生成したキーワードタグ集合と、分割部20が分割して作ったセクションの集合から、Textrank、Rapid Automatic Keyword Extraction、Word2Vec、Topic Model等のアルゴリズムを用いて、セクションごとにセクションを意味的に表すキーワードタグが付与される。図7は、この付与されたキーワードタグが各章や各節の下に表示されているユーザインタフェースである。例として、1つのセクションに「(f)第三者割当て」が項目立てされており、その項目の下に「第三者割当て」および「規制」がキーワードタグとして付与されており、文中に「第三者割当て」という語が記号T1で示すようにハイライトされ、「規制」の内容を示す法律の条項が記号T2で示すようにハイライトされている。
タグを付与する方法としては、キーワードタグ生成部30がキーワードタグを生成する上記具体的手法に加え、上記具体的手法の実行結果からそのままキーワードタグを付与する方法と、上記具体的手法の結果からキーワードタグごとの重みづけ(tf−idfなどを用いる)のあるキーワードタグ集合を生成し、各セクションに対して上位n位のキーワードタグのみをキーワードタグとして付与する方法が考えられる。また、この二手法を並行して実施し、選ばれたキーワードタグ集合の和集合をキーワードタグとする方法と、選ばれたキーワードタグ集合の積集合をキーワードタグとする方法がある。
また、キーワードタグどうしの階層関係の解析、つまりキーワードタグ−キーワードタグ間の関係性の解析も行うことができる。この手法により、キーワードタグ集合とセクションの集合とを入力として、木集合になったキーワードタグ集合が出力される。キーワードタグどうしの関係の解析とは、選ばれた二つのキーワードタグについて、互いに類似するのか、また類似する場合にはその類似の度合いがどの程度であるかを解析すること、また、選ばれたキーワードタグが指示する概念どうしが包含関係にあるのか、また包含関係にある場合にどちらがどちらを包含するのかを解析することをいう。具体的には、類似性の評価方法として、キーワードタグの付与の際に、より多くの文に同時に付与されたキーワードタグは類似性が高いと認める手法と、キーワードタグ集合の生成の際に計算された共起度が高い対については類似性が高いと認める手法とがある。また、包含性の評価方法として、例えば、ある範囲においてaが出現する条件において、そこにaとbが共起する条件付き確率と、ある範囲においてbが出現する条件において、そこにbとaが共起する条件付き確率を考えたとき、後者が前者よりも大きい場合、aはbを包含するキーワードタグであると考える。同様に、前者が後者よりも大きい場合、bはaを包含するキーワードタグであると考えることができる。
また、手法Xと同じ方法により、aの方がbよりもより多くの語との類似性が認められる場合、aはbを包含していると考える。同様に、bの方がaよりもより多くの語との類似性が認められる場合、bはaを包含していると考える。書籍の構造において、より下位の章の見出しに出現するキーワードタグは、より上位の章の見出しで出現するキーワードタグに包含されると考える。
また、手法Xと同じ方法により、aの方がbよりもより多くの語との類似性が認められる場合、aはbを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、bの方がaよりもより多くの語との類似性が認められる場合、bはaを包含していると考えることができる。逆に、bの方がaよりもより多くの語との類似性が認められる場合、aはbを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、aの方がbよりもより多くの語との類似性が認められる場合、bはaを包含していると考えることができる。
また、書籍の文章の論理構造において、より下位の章の見出しに出現するキーワードタグは、より上位の章の見出しで出現するキーワードタグに包含されると考えることができる。
あるいは、例えば、書籍の索引に「目論見書」と「目論見書の虚偽記載」という二つの項目があれば、後者は前者の文字列に付して助詞「の」を用いて下位概念を説明しているものと推定し、「虚偽記載」は「目論見書」の下位概念であるということが分かるというように、索引を用いて項目間の部分文字列関係からキーワードタグ間の関係を推定できる。同様に、目次の階層構造を用いることもできる。
あるいは、文章の係り受け等を解析し、キーワードタグ間の上位・下位を判定することもできる。
次に、判定ステップS40は、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する。具体的には、「注:」、「〜参照」、「例、」などの文言や、法律の条項(例えば、特許法第2条1項)、業界用語が含まれている場合には、それらを参照表記であることが分かっている文字列の集合として認識する。また、参照表記であることが分かっていないセクションの集合からも、参照を示唆する文言が含まれているか否かを判定する。
判定ステップS40は、検出ステップS41でパターンマッチ、条件付き確率場等の系列ラベリング問題を解く手法およびニューラルネットワークのうち少なくともいずれか1つを用いて参照を示唆する文言を検出し、同定ステップS42でリンクのそれぞれについて参照先のセクションを同定する。
系列ラベリングとは、単語列やトークン列等の系列に対して、系列を構成する各要素に対して全体を通しての最適性を考慮してラベル付けする、という問題設定である。ここでは、セクションの集合と文字列の集合とから、別セクションへのリンクが付与されたセクションの集合を出力する。この系列ラベリングを解くための手法として、条件付き確率場を用いて解く手法と、ニューラルネットワークベースの手法を用いて解く手法とがあり、その際に副次的にリンク先の特定も同時に解くことができる場合がある。
また、明示的な参照関係の解析手法としてパターンマッチがある。パターンマッチは、書籍等の中でどのような表現がリンクとして使われがちかという情報をもとに系列ラベリングを解く手法である。すなわち、「詳細は○○を参照せよ」と書いてあれば、この部分は○○へのリンクと思われる、というようなパターンを用意することにより、自動または半自動または手動で明示的な参照関係を解析できる。
また、上記セクション間の明示的な参照関係の解析手法を用いて確率的に同定された参照先のセクション候補群のうちに、参照先のセクションである確率が閾値よりも高いものが無い場合に、専門書類データベース311に候補群を記録しておき、参照先候補をユーザに提示し選択させ、その選択を蓄積することにより、検索の精度を向上させる。
書籍等のPDFデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することにより、別セクションへのリンクが付与されたセクションの集合が出力される。これら4つの手法は組み合わせて用いてもよく、どれか一つの手法を単独で用いてもよい。
特定ステップS50では、判定ステップS40で判定部50が参照を示唆する文言が含まれると判定した場合に、特定部60が、参照先のセクションを特定する。
リンク生成ステップS60は、特定部60が特定した参照先のセクションに文書からのリンクを生成する。
リンク出力ステップS70は、特定部60が特定した参照先へのリンクを出力する。
関連文書取得ステップS80では、関連文書取得部90が、ある文書に類似する関連文書を示す情報を生成する。関連文書取得部90は、セクションおよび参照先のセクションから、関連文書を生成する。また、関連文書取得部90は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得する。
具体的には、入力としてセクションが与えられており、各セクションにはリンクやキーワードタグが付与されているというような状況設定で、手法としては、セクション群をリンクやキーワードタグ、セクションの位置、セクションに出現する語彙などを手掛かりにして粗くネットワーク構造化し、その構造上で粗い情報をもとにさらに関連性を精緻化していく手法が挙げられる。例えば、セクションAとセクションBは、同じセクションCへのリンクを含むとすると、このとき、まずAとC、およびBとCを「リンクがある」という情報を手掛かりに粗いネットワーク上で結び、こうして粗いネットワークを構築したうえで、AとC、BとCが直接連結していることをもとにAとBもある程度関連していると推論し、AとBも結ぶ、というようなことを行うことで、関連性ネットワークを構築できる。その関係性ネットワークとはコンピュータ科学的には「グラフ」と呼ばれるデータ構造の1つで、グラフ理論の問題として定式化して解くことが可能である。もう一つの手法は埋め込みをベースとするもので、各セクションは、上記ネットワーク構造化と同様、リンクやキーワードタグなど複数の手がかりを持っており、これらを使って各セクションを低次元ユークリッド空間上のベクトルに対応付けることができる。こうすることで、ベクトルとベクトルの類似性を計算する既知の手法を使って、セクションとセクションの類似性を計算できる。
関連文書出力ステップS90は、関連文書出力部110が、関連文書取得部90が取得した関連文書を出力する。
このようなステップを備えることにより、本実施形態に係る文作成方法によれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語(キーワードタグ)の文中での使われ方を解析することで、専門書類(例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい)間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能になる。
[文作成プログラム]
本発明に係る文作成プログラムでは、本発明の文作成装置が有する機能をコンピュータに実現させる。
また、前述した各種の変形例を選択し、適宜組み合わせてもよいし、その他の変形を施してもよい。
<補足>
上記実施形態には示していないが、上記文作成装置が作成したデータを用いて実現される機能として、関連文献を逆引きする機能を含んでよい。閲覧中の文献の全体或いは特定箇所が別の文献により参照されている場合、その閲覧中の文献の全体或いは特定箇所を参照している文献があることがある。従来であれば、閲覧中の文献を参照している他の文献を発見することは不可能であった。なぜなら、この世に存在するすべての書籍は、その箇所を参照している可能性があるため、ある文献へ言及している他の文献を網羅的に探し出すためには、世の中の全文献を確認する必要があり、このことは現実的な時間制約上、実行不可能であるためである。本実施形態に係る発明においては、上述の意味的構造化により、すべての文献のセクション間の明示的参照関係が抽出されているため、ある文献を参照している他の文書が「この文書を参照している文書」としてプロダクト画面上に表示され、それらの文書の当該箇所に移動することができる。具体的には、上記実施形態に示した手法により参照先の文献も同様に構造化してセクションに分割するとともに各セクションに対するタグ付けを実行し、参照先の関連するセクションに対してリンクを貼る。これによって、関連文献の中の関連する部分を参照することができ、従来は不可能だったある文書を参照している他の文書を発見することと、被参照先の本の中から当該資料への言及を含むセクションへと移動することが可能になる。例えば、閲覧していた「大阪地方裁判所…」という判決を参照している文書が表示されているとすると、例えば、図7に示すようなUIにおいて「被リンク検索」というボタンを設けて、当該ボタンを押すことにより「この文書を参照している文書」というポップアップが表示され、その中の1冊を選択すると、当該判例が参照されている箇所に移動することが出来る。
また、上記実施形態で実現される機能として、表記ゆれを修正する機能が含まれてもよい。従来、書籍中に法律名等を略して「保険業法第272条1項」が「法272条1項」と書いてあったり、また、法律用語であっても、「第三者割当て」「第三者割当」「第三者割当増資」などの表記ゆれが存在したりする。このような場合、「法272条1項」と検索すると、その文字列を含む全ての文書が出てきてしまい、保険業法以外の法律の272条1項に関する言及を抽出してしまう。本実施形態に係る発明においては、上述の意味的構造化により、法条や法律用語への言及がある場合、それらを自動的にキーワードタグとして認識する。また、キーワードタグ同士の関係性も抽出されるため、例えば、「法272条1項」は「保険業法272条1項」と同じ意味であることや、「第三者割当て」「第三者割当」「第三者割当増資」の3つは同じ意味であることも抽出される。このようにして抽出された用語を、文作成装置が互いに関連付けて記憶することにより表記ゆれを吸収し、それぞれ表現は異なるものの同じ内容を示す場合に、同じセクションや説明を参照するようにリンクを貼ることができる。これにより、キーワードタグを用いた検索を行うと、キーワードタグが付与された文章が含まれる各文献のセクションがすべてヒットして、関連度順に並べられた状態で検索結果一覧として表示され、たとえば「保険業法272条1項」についての全ての文献を検索することが可能となる。「保険業法第272条」というキーワードタグを用いて検索を実行した結果がイメージ画像として表示されているとすると、同キーワードタグが付された文章が含まれるセクションとしては、『詳解 保険業法』の中の「第5章 少額短期保険業者などの規制・監督」というセクションがヒットする。なぜなら、当該セクションの中に含まれている「法272条1項」という言及が、「保険業法第272条」というキーワードタグとして事前に認定され、キーワードタグが付与されているためである。従来はある本において「法272条」と書かれているだけでは、それが保険業法なのか、商法なのか、明示的にはわからず、「保険業法第272条」と検索しても検索結果一覧に表示されることはなかった。しかし、当該書籍の「法272条」という文字列は、その文脈等の情報から「保険業法第272条」というキーワードタグであると認識することを事前に行うことで、「保険業法第272条」というキーワードタグでの検索結果に対して、文脈等の情報から「保険業法第272条」というキーワードが付与されているすべてのセクションおよびそのセクションを含む文献(文字列としては「法272条」のみが含まれたものも含む)を、検索結果一覧に表示することが可能になる。
上記実施形態で実現される機能として、キーワードのセクション別ヒット数を表示する機能がある。従来、文献をキーワードタグ検索ではなく、単純な完全一致検索であるキーワード検索すると、一般的にはキーワードが本文中でハイライトされ、それを一つずつ見て必要な情報を探すことになる。本実施形態に係る発明においては、上述の構文的構造化により、文献の本文の左側に表示される目次(TOC:Table of contents)上で、どのセクションにおいて、そのキーワードが何個あるかが表示される。これにより、瞬時に読むべき部分かどうかを、目次の文言と、ヒット数から判断することができる。例えば、「株式等売渡請求 強圧性」という二つの単語を用いて本文内検索を実行すると、その際、本文内では、それぞれのキーワードが別の色でハイライトされており、視認しやすくなっている。また、左側に表示されるTOC(Table of contents)では、各見出しの右側に数字が表示される。この数字は、各見出しが付されたページ内に何個当該のキーワードが含まれているかを示す。この機能によって、キーワードを本文内検索した際に、キーワードが多く含まれている箇所を瞬時に特定して、その場所へと移動することが可能になる。
また、文作成装置は、参照を示唆する文言として、「こそあど」言葉に対してリンクを貼ったり、「○○以上」、「××以下」、「△△以外」のような条件節に対して、その条件の分岐先をリンク付けたりしてもよい。「こそあど」言葉とは、これとかあれとかのような指示名詞であり、そのような言葉を文中から探索して、その場合の文脈解析により、指示名詞が何を指すのかを特定してリンクを貼ることができる。条件節についても同様に条件の元となる内容を特定し、その場合の条件による分岐先を特定し、その条件のいずれを指すのかを特定することによって、何を指すのかを特定してリンクを貼ることができる。
1 文作成システム
2 コンピュータ
3 サーバ
4 端末装置
5 ネットワーク
100 文作成装置
10 受付部
20 分割部
30 キーワードタグ生成部
40 制御部
50 判定部
51 検出部
52 同定部
60 特定部
70 リンク生成部
80 リンク出力部
90 関連文書取得部
110 関連文書出力部

Claims (21)

  1. 文書の入力を受け付ける受付部と、
    前記文書を複数のセクションに分割する分割部と、
    前記分割部が分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、
    前記複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、
    前記参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える
    文作成装置。
  2. 前記特定部が特定した前記参照先のセクションに前記文書からのリンクを生成するリンク生成部と、
    前記特定部が特定した前記参照先へのリンクを出力し、当該リンクを選択することにより前記参照先への移動を可能にするリンク出力部と、
    をさらに備える
    請求項1に記載の文作成装置。
  3. 前記判定部は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか1つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項2に記載の文作成装置。
  4. 前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得部と、
    前記関連文書を出力する関連文書出力部と、
    をさらに備える請求項1〜3のいずれか1項に記載の文作成装置。
  5. 前記関連文書取得部は、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とする請求項4に記載の文作成装置。
  6. 前記関連文書取得部は、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項4に記載の文作成装置。
  7. 前記関連文書取得部は、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項4〜6に記載の文作成装置。
  8. 文書の入力を受け付ける受付ステップと、
    前記文書を複数のセクションに分割する分割ステップと、
    前記分割ステップが分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成ステップと、
    前記複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定ステップと、
    前記参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定ステップとを備える
    文作成方法。
  9. 前記特定ステップが特定した前記参照先のセクションに前記文書からのリンクを生成する生成ステップと、
    前記特定ステップが特定した前記参照先へのリンクを出力する出力ステップと、
    をさらに備える
    請求項8に記載の文作成方法。
  10. 前記判定ステップは、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか1つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項9に記載の文作成方法。
  11. 前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得ステップと、
    前記関連文書を出力する関連文書出力ステップと、
    をさらに備える請求項8〜10のいずれか1項に記載の文作成方法。
  12. 前記関連文書取得ステップは、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とする請求項11に記載の文作成方法。
  13. 前記関連文書取得ステップは、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項11に記載の文作成方法。
  14. 前記関連文書取得ステップは、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項11〜13に記載の文作成方法。
  15. コンピュータに、
    文書の入力を受け付ける受付機能と、
    前記文書を複数のセクションに分割する分割機能と、
    前記分割機能が分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成機能と、
    前記セクション中に参照を示唆する文言が含まれるか否かを判定する判定機能と、
    参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定機能と
    を実現させることを特徴とする文作成プログラム。
  16. 前記コンピュータに、
    前記特定機能が特定した前記参照先のセクションに前記文書からのリンクを生成するリンク生成機能と、
    前記特定機能が特定した前記参照先へのリンクを出力するリンク出力機能と、
    をさらに実現させる
    ことを特徴とする請求項15に記載の文作成プログラム。
  17. 前記判定機能は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか1つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項16に記載の文作成プログラム。
  18. 前記コンピュータに、
    前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得機能と、
    前記関連文書を出力する関連文書出力機能と、
    をさらに実現させる請求項15〜17のいずれか1項に記載の文作成プログラム。
  19. 前記関連文書取得機能は、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とすることを特徴とする請求項18に記載の文作成プログラム。
  20. 前記関連文書取得機能は、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項18に記載の文作成プログラム。
  21. 前記関連文書取得機能は、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項18〜20に記載の文作成プログラム。
JP2019188191A 2019-10-11 2019-10-11 文作成装置、文作成方法および文作成プログラム Pending JP2021064143A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019188191A JP2021064143A (ja) 2019-10-11 2019-10-11 文作成装置、文作成方法および文作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019188191A JP2021064143A (ja) 2019-10-11 2019-10-11 文作成装置、文作成方法および文作成プログラム

Publications (1)

Publication Number Publication Date
JP2021064143A true JP2021064143A (ja) 2021-04-22

Family

ID=75486303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019188191A Pending JP2021064143A (ja) 2019-10-11 2019-10-11 文作成装置、文作成方法および文作成プログラム

Country Status (1)

Country Link
JP (1) JP2021064143A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618852A (zh) * 2022-11-22 2023-01-17 山东天成书业有限公司 一种文本数字化自动校对系统
EP4276676A1 (en) 2022-05-09 2023-11-15 Canon Kabushiki Kaisha Information processing apparatus, information processing method, program, and storage medium for extracting a named entity from a document

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295542B1 (en) * 1998-10-02 2001-09-25 National Power Plc Method and apparatus for cross-referencing text
JP2002032367A (ja) * 2000-07-14 2002-01-31 Jisedai Joho Hoso System Kenkyusho:Kk 文章解釈を支援するための情報付加方法及び文章提示装置
JP2003178055A (ja) * 2001-12-11 2003-06-27 Hitachi Ltd 文書データの関連性抽出装置及び抽出プログラム
JP2004086845A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
US20050050444A1 (en) * 2003-09-03 2005-03-03 Vasey Philip E. Cross-reference generation
JP2006195667A (ja) * 2005-01-12 2006-07-27 Toshiba Corp 構造化文書検索装置、構造化文書検索方法、及び構造化文書検索プログラム
JP2008204274A (ja) * 2007-02-21 2008-09-04 Nomura Research Institute Ltd 会話解析装置および会話解析プログラム
JP2008310570A (ja) * 2007-06-14 2008-12-25 Hitachi Ltd 電文解析方法、電文解析装置、及び電文解析プログラム
JP2009181166A (ja) * 2008-01-29 2009-08-13 Toshiba Corp 文書処理装置、方法及びプログラム
JP2012059227A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd 文書分割装置、文書処理システム、プログラム
US9411804B1 (en) * 2013-07-17 2016-08-09 Yseop Sa Techniques for automatic generation of natural language text
JP2017033361A (ja) * 2015-08-04 2017-02-09 コニカミノルタ株式会社 文書関連付け装置、文書関連付けシステム、プログラム
JP6469919B1 (ja) * 2018-05-09 2019-02-13 株式会社Legalscape 判決文データベースの作成方法、判決文データベースの検索方法、文作成方法、判決文データベースの作成装置、判決文データベースの検索装置、文作成装置、判決文データベースの作成プログラム、判決文データベースの検索プログラム、および文作成プログラム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295542B1 (en) * 1998-10-02 2001-09-25 National Power Plc Method and apparatus for cross-referencing text
JP2002032367A (ja) * 2000-07-14 2002-01-31 Jisedai Joho Hoso System Kenkyusho:Kk 文章解釈を支援するための情報付加方法及び文章提示装置
JP2003178055A (ja) * 2001-12-11 2003-06-27 Hitachi Ltd 文書データの関連性抽出装置及び抽出プログラム
JP2004086845A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 電子文書情報拡充装置、方法及びプログラム、並びに、電子文書情報拡充プログラムを記録した記録媒体
US20050050444A1 (en) * 2003-09-03 2005-03-03 Vasey Philip E. Cross-reference generation
JP2006195667A (ja) * 2005-01-12 2006-07-27 Toshiba Corp 構造化文書検索装置、構造化文書検索方法、及び構造化文書検索プログラム
JP2008204274A (ja) * 2007-02-21 2008-09-04 Nomura Research Institute Ltd 会話解析装置および会話解析プログラム
JP2008310570A (ja) * 2007-06-14 2008-12-25 Hitachi Ltd 電文解析方法、電文解析装置、及び電文解析プログラム
JP2009181166A (ja) * 2008-01-29 2009-08-13 Toshiba Corp 文書処理装置、方法及びプログラム
JP2012059227A (ja) * 2010-09-13 2012-03-22 Ricoh Co Ltd 文書分割装置、文書処理システム、プログラム
US9411804B1 (en) * 2013-07-17 2016-08-09 Yseop Sa Techniques for automatic generation of natural language text
JP2017033361A (ja) * 2015-08-04 2017-02-09 コニカミノルタ株式会社 文書関連付け装置、文書関連付けシステム、プログラム
JP6469919B1 (ja) * 2018-05-09 2019-02-13 株式会社Legalscape 判決文データベースの作成方法、判決文データベースの検索方法、文作成方法、判決文データベースの作成装置、判決文データベースの検索装置、文作成装置、判決文データベースの作成プログラム、判決文データベースの検索プログラム、および文作成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4276676A1 (en) 2022-05-09 2023-11-15 Canon Kabushiki Kaisha Information processing apparatus, information processing method, program, and storage medium for extracting a named entity from a document
CN115618852A (zh) * 2022-11-22 2023-01-17 山东天成书业有限公司 一种文本数字化自动校对系统

Similar Documents

Publication Publication Date Title
Shelar et al. Named entity recognition approaches and their comparison for custom ner model
Strötgen et al. Multilingual and cross-domain temporal tagging
US10146751B1 (en) Methods for information extraction, search, and structured representation of text data
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
JP5283208B2 (ja) 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
JP6014725B2 (ja) 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
Croce et al. Neural learning for question answering in italian
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
Wiedemann et al. New/s/leak 2.0–Multilingual information extraction and visualization for investigative journalism
JP2021064143A (ja) 文作成装置、文作成方法および文作成プログラム
Ananiadou et al. Supporting the education evidence portal via text mining
Luthfi et al. Building an Indonesian named entity recognizer using Wikipedia and DBPedia
Nanni et al. Semi-supervised textual analysis and historical research helping each other: Some thoughts and observations
Batista-Navarro et al. A text mining-based framework for constructing an RDF-compliant biodiversity knowledge repository
JP2014102625A (ja) 情報検索システム、プログラム、および方法
Wanjari et al. Automatic news extraction system for Indian online news papers
Musabeyezu Comparative study of annotation tools and techniques
Kundi et al. A review of text summarization
KR101072147B1 (ko) 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템
Modi et al. Multimodal web content mining to filter non-learning sites using NLP
Ellouze et al. CITOM: An incremental construction of multilingual topic maps
Uddin et al. Information and relation extraction for semantic annotation of ebook texts
Fogarolli Wikipedia as a source of ontological knowledge: state of the art and application
Banerjee et al. Trainable framework for information extraction, structuring and summarization of unstructured data, using modified NER
JP2008269106A (ja) スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220826

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231012

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240109