JP2021064143A

JP2021064143A - 文作成装置、文作成方法および文作成プログラム

Info

Publication number: JP2021064143A
Application number: JP2019188191A
Authority: JP
Inventors: 樹八木田; Itsuki Yagita; 祐亮城戸; Yusuke Kido
Original assignee: Legalscape; Legalscape Inc
Current assignee: Legalscape; Legalscape Inc
Priority date: 2019-10-11
Filing date: 2019-10-11
Publication date: 2021-04-22

Abstract

【課題】膨大な専門書類への横断的なアクセス及び高度な分析に基づく必要な専門書類へのピンポイントなアクセスを可能にする文作成装置、文作成方法および文作成プログラムを提供する。【解決手段】文作成システムにおいて、文作成装置は、文書の入力を受け付ける受付部と、文書を複数のセクションに分割する分割部と、分割部が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部と、を備える。【選択図】図４

Description

本発明は、文作成装置、文作成方法および文作成プログラムに関する。具体的には、専門書類を構造化して、専門書類間の参照を容易にする文作成装置、文作成方法および文作成プログラムに関する。

従来、複数の専門書類を複数の分類に振り分けて、専門書類を検索して参照したいユーザに検索しやすくする文作成装置、文作成方法および文作成プログラムが知られている。

特開２００３−１６０５５号公報特許第６４６９９１９号公報

上記特許文献１のような文作成装置および文作成方法では、単語もしくは文節データの入力を文テンプレートの選択よりも先に行い、入力された全ての単語もしくは文節データの意味カテゴリ、および文字列に含まれる付属語が記述されている文テンプレートのみを用いて文候補を生成する。また、上記特許文献２のような文作成装置、文作成方法および文作成プログラムでは、判決文を適切に小文章に章立てし、その小文章の項目分けを行い、この項目分けまたは種類分けされた小文章から判決文に関連する他の判決文の小文章や評釈などの小文章の検索を行い、この項目分けまたは種類分けされた種類分けされた小文章から訴状などの文を作成する。

これまで、法律専門書や官公庁の資料等は様々な場所や媒体に分散しており、またそれらが検索のできないアナログ媒体であることも多くあった。一部デジタル化されている場合でも閲覧性・検索性の低い印刷用ＰＤＦデータそのままでの提供に限られることが多かった。そのため、法務実務家が必要な情報にアクセスするためには、文献等の特定、文献等の入手、文献等の中から目次や索引を駆使して必要な情報を見つけるというプロセスを必要とし、膨大な手間と時間を要していた。また、ＰＤＦビューアーに代表される従来型の電子書籍リーダーでは、単一キーワードタグによる全文検索や目次からの単純な移行は可能であるものの、複数キーワードタグによる章および節の絞り込みや書籍内外の関連した記述へのスムーズかつ並行したアクセスおよび閲覧ができなかった。上記特許文献１のような文作成装置及び文作成方法では、同じ文書内で文を作成することしかできないため他の文書にピンポイントにアクセスすることはできなかった。上記特許文献２のような文作成装置、文作成方法および文作成プログラムでは、判決文のみに対応した技術であるから、すべての文献から横断的に検索し、閲覧することはできなかった。よって上記先行技術では、高度かつ複雑な情報収集および分析を必要とする法律調査において、必要な情報を素早く正確に洗い出し、絞り込みたいというニーズに充分に対応することができなかった。

そこで、近年、文書中の参照や注記等、別の文献への言及がある場合、当該別の文献にワンクリックで移行でき、閲覧中の文献のある箇所が別の文献により参照されている場合には当該別の文献を関連文献として表示でき、文献の章、節等それぞれのセクションに対しキーワードタグが付与されていることによる、一般的な全文検索を超える精度の高い検索機能を有する文作成装置、文作成方法および文作成プログラムの提供が望まれている。

そこで本発明は、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や法律特有の用語（キーワードタグ）の文中での使われ方を解析することで、専門書類（例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい）間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能な文作成装置、文作成方法および文作成プログラムを提供することを目的とする。

上記課題を解決するために、本発明の文作成装置は、文書の入力を受け付ける受付部と、文書を複数のセクションに分割する分割部と、分割部が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える。

本発明の文作成装置は、特定部が特定した参照先のセクションに文書からのリンクを生成するリンク生成部と、特定部が特定した参照先へのリンクを出力するリンク出力部と、をさらに備えてもよい。

判定部は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか１つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。

本発明の文作成装置は、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得部と、関連文書を出力する関連文書出力部と、をさらに備えてもよい。

関連文書取得部は、セクションおよび参照先のセクションから、関連文書を取得してもよい。

関連文書取得部は、文書とは異なる他の文書から、関連文書を取得してもよい。

関連文書取得部は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。

また、上記課題を解決するために、本発明の文作成方法は、文書の入力を受け付ける受付ステップと、文書を複数のセクションに分割する分割ステップと、分割ステップで分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成ステップと、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定ステップと、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定ステップとを備える。

本発明の文作成方法は、特定ステップが特定した参照先のセクションに文書からのリンクを生成する生成ステップと、特定ステップが特定した参照先へのリンクを出力する出力ステップと、をさらに備えてもよい。

判定ステップは、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか１つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。

本発明の文作成方法は、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得ステップと、関連文書を出力する関連文書出力ステップと、をさらに備えてもよい。

関連文書取得ステップは、セクションおよび参照先のセクションから、関連文書を取得してもよい。

関連文書取得ステップは、文書とは異なる他の文書から、関連文書を取得してもよい。

関連文書取得ステップは、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。

また、上記課題を解決するために、本発明の文作成プログラムは、コンピュータに、文書の入力を受け付ける受付機能と、文書を複数のセクションに分割する分割機能と、分割機能が分割した複数のセクションごとにキーワードタグを生成するキーワードタグ生成機能と、セクション中に参照を示唆する文言が含まれるか否かを判定する判定機能と、参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定機能とを実現させる。

本発明の文作成プログラムは、コンピュータに、特定機能が特定した参照先のセクションに文書からのリンクを生成するリンク生成機能と、特定機能が特定した参照先へのリンクを出力するリンク出力機能と、をさらに実現させてもよい。

判定機能は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法およびニューラルネットワークのうち少なくともいずれか１つを用いて参照を示唆する文言を検出し、リンクのそれぞれについて参照先のセクションを同定してもよい。

本発明の文作成プログラムは、コンピュータに、文書に類似し、参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得機能と、関連文書を出力する関連文書出力機能と、をさらに実現させてもよい。

関連文書取得機能は、セクションおよび参照先のセクションから、関連文書を取得してもよい。

関連文書取得機能は、文書とは異なる他の文書から、関連文書を取得してもよい。

関連文書取得機能は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得してもよい。

本発明の文作成装置、文作成方法および文作成プログラムによれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語（キーワードタグ）の文中での使われ方を解析することで、専門書類（例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい）間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能になる。

文作成装置を含むシステムによる処理の一例を説明するための模式図である。文作成装置を含むシステムの概略構成の一例を示す図である。サーバの概略構成の一例を示す図である。本発明に係る文作成装置の構成要素を示す図である。本発明に係る文作成装置のインタフェースを示す図である。本発明に係る文作成装置のインタフェースを示す別の図である。本発明に係る文作成装置のインタフェースを示すさらに別の図である。本発明に係る文作成方法を示すフローチャートである。本発明の実現方法の概要を示す図である。本発明の実現方法の第一段階を示す図である。本発明の実現方法の第二段階を示す図である。本発明の実現方法の第三段階を示す図である。本発明の実現方法の第四段階を示す図である。本発明の実現方法の第五段階を示す図である。

以下、本開示の一側面に係る文作成装置、文作成方法および文作成プログラムについて図を参照しつつ説明する。但し、本開示の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。

（文作成システム１による処理の概要）
図１は、文作成システム１による処理の一例を説明するための模式図である。

文作成システム１は、１つ以上のコンピュータ２から複数の専門書類を受信し、サーバ３に記憶し、ユーザの端末装置４からの検索要求に応じて専門書類を提供する。専門書類とは法律文書、技術文書、論文、技術雑誌など幅広い文書を含んでよく、通常はテキストデータからなる。これらの文書は、テキストデータ以外にもテキストデータに変換可能な情報を含んでいれば、画像データ（動画像、静止画像）や音声データであってもよい。

サーバ３には、専門書類データベース３１１が記憶されている。専門書類データベース３１１には複数の専門書類が専門書類識別情報（専門書類ＩＤ）とともに記憶されている。また、専門書類データベース３１１は、本実施の形態においては、サーバからなっているが、文作成システム１の外部に存在してもよい。

ユーザは、サーバ３に記憶されている専門書類を検索したい場合には、端末装置４を用いて、検索要求をサーバ３に送信する。サーバ３は、受信した検索要求に応じてサーバ３の専門書類データベース３１１から専門書類を抽出して、ユーザの端末装置４に送信する。

ユーザは、端末装置４と接続されている文作成装置１００において、文書データをインタフェースに入力し、その文書データについて、文書内の閲覧したい情報を検索したり、文書内容の説明文が表示される設定がされた状態の文書データに変換したりすることができる。

なお、上述した図１の説明は、本発明の内容への理解を深めるための説明にすぎない。本発明は、具体的には、次に説明する各実施の形態において実施され、且つ、本発明の原則を実質的に超えずに、さまざまな変形例によって実施されてもよい。このような変形例はすべて、本発明および本明細書の開示範囲に含まれる。例えば、本実施の形態において、法律文書を検索する構成について説明しているが、契約書を元に専門書類を検索する構成としてもよい。更に、本実施の形態にかかる文は、法律文書に限定されて解釈される必要もない。すなわち、互いに関係性のある文章同士の検索に用いることができる。また、本発明の文は、法律文書に限定されず、他の文に適応することができる。例えば、論文やブログなどにも適用することができる。

（文作成システム１の概略構成）
図２は、文作成システム１の概略構成の一例を示す図である。

文作成システム１は、複数のコンピュータ２、２、２・・・と、サーバ３と、ユーザの端末装置４とを有する。以下では、複数のコンピュータ２を単にコンピュータ２と称する場合がある。コンピュータ２、２、２・・・およびサーバ３は、例えば、ネットワーク５などの通信ネットワークを介してそれぞれ相互に接続される。更に、ユーザの端末装置４およびサーバ３は、例えば、ネットワーク５などの通信ネットワークを介してそれぞれ相互に接続される。文作成装置１００はサーバ３に接続されている。また、ここではネットワーク５が１つ例示されているが、ネットワーク５が複数のネットワークからなる場合は、それぞれのネットワーク間にゲートウェイ（図示しない）を適宜設けてもよい。コンピュータ２で実行されるプログラム（例えば、閲覧プログラム）と、サーバ３で実行されるプログラム（例えば、管理プログラム）とは、ハイパーテキスト転送プロトコル（ＨＴＴＰ）などの通信プロトコルを用いて通信を行う。

（サーバ３の概略構成）
図３は、サーバ３の概略構成の一例を示す図である。

サーバ３には、複数の専門書類を記憶するデータベースが記憶されている。専門書類データベース３１１には複数の専門書類が専門書類識別情報（専門書類ＩＤ）とともに記憶されている。これらの専門書類は、サーバ３がコンピュータ２から受信し、端末装置４により検索される。そして、サーバ３は、端末装置４により入力された検索条件に基づいて専門書類を検索し、端末装置４に送信する。以上のような機能を実現するために、サーバ３は、サーバ通信部３１４、サーバ記憶部３１５、およびサーバ処理部３１６を更に備える。

サーバ通信部３１４は、サーバ３をネットワーク５に接続するための通信インタフェース回路を有する。サーバ通信部３１４は、コンピュータ２から専門書類の文書データを受信する。更に、サーバ通信部３１４は、端末装置４から受信した検索条件などのデータをサーバ処理部３１６に送信する。そして、サーバ通信部３１４は、サーバ処理部３１６から得られた抽出結果や生成された画面構成を端末装置４に送信する。サーバ通信部３１４は、上述以外の情報をコンピュータ２や端末装置４に送信または受信することができる。

サーバ記憶部３１５は、例えば、半導体メモリ、磁気ディスク装置および光ディスク装置の内の少なくとも一つを有し、バスを介してサーバ３と接続される。サーバ記憶部３１５は、サーバ処理部３１６による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データなどを記憶する。例えば、サーバ記憶部３１５は、ドライバプログラムとして、サーバ通信部３１４を制御する通信デバイスドライバプログラムなどを記憶する。コンピュータプログラムは、例えばＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭなどのコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラムなどを用いてサーバ記憶部３１５にインストールされてもよい。また、サーバ記憶部３１５は、専門書類データベース３１１および契約書データベース３１２などを記憶する。

サーバ処理部３１６は、コンピュータ２から受信した文を章立てしたり、節立てしたりして、文、章および節を対応付けてサーバ記憶部３１５に記憶する。更にサーバ処理部３１６は、ユーザの端末装置４から受信した各種検索要求に応じて検索結果を抽出したり、抽出した検索結果をユーザの端末装置４に送信すべく画面構成を生成したり、生成された画面構成をサーバ通信部３１４に送ったりする。これらの機能は、サーバ処理部３１６が備えるプロセッサで実行されるプログラムにより実現される機能モジュールである。あるいは、これらの各部は、独立した集積回路、マイクロプロセッサ、またはファームウェアとしてサーバ３に実装されてもよい。

［文作成装置］
図面を参照して、本実施形態に係る文作成装置１００について説明する。文作成装置１００は、専門書類の入力を受け付けて、この専門書類に解説を加える変換処理を行う注釈付与装置である。ここで解説を加えるとは、専門書類の文中に含まれる参照文言に対して、その参照先の文書がある文へのリンクを貼ったり、専門書類に含まれる専門用語等の解説をする文書データを付与したり、その専門用語を解説する他の文書へのリンクを貼ったりすることをいう。

図４に示すように、文作成装置１００は、受付部１０、分割部２０、キーワードタグ生成部３０、制御部４０、リンク生成部７０、リンク出力部８０、関連文書取得部９０および関連文書出力部１１０を備える。

文作成装置１００では、専門書類を構造化する。具体的には、まず、ＰＤＦ情報等の構造化されていない（以下、構造化レベル０という）データを構文的解析により構造化する第一段階の構造化（以下、構造化レベル１という）を行う。本実施形態では、専門書類のＰＤＦ情報等の構造化されていないデータから、章構造・節構造等の専門書類の階層構造（以下、特に章・節・段落等の文書階層構造上のかたまりをセクションと呼ぶことにする）や、柱書、注釈等を抽出する。それにより、ウェブ上での閲覧に適した閲覧が可能になり、全専門書類に本文と連動する目次を表示することができる。次に、第一段階の構造化で構文的に構造化された文書データを意味的解析により構造化する、第二段階の構造化（以下、構造化レベル２という）を行う。本実施形態では、３つのことを行う。まず、１つ目として全ての法律文書の各セクションに対し、その内容を的確に表すキーワードタグ（例えば、重要語句、法令名、文章名）を付与することで、専門書類自体やそのセクションとタグとの関係性を記述する。それにより、キーワードタグを用いて閲覧したい専門書類をピンポイントに検索することが可能になる。２つ目として、専門書類間の明示的な参照関係を抽出する。これにより、専門書類中の参照リンクを辿り、引用されている文献を閲覧できるようになる。加えて、閲覧中の専門書類を参照しているような別の文書のセクションを、サジェストすることが可能になる。３つ目として、１つ目で付与されたキーワードタグを用い、全専門書類のセクション同士の関係性を推定する。この推定の際には、推定の精度を高めるために、２つ目で付与された明示的な参照関係を用いることもできるし、加えてキーワードタグの生成時あるいは生成とは独立のタイミングで、キーワードタグどうしの相互の関係性を推定しておくこともできる。これにより、閲覧中の文章を明示的には参照していない別の文章のセクションであって、関連するようなものをサジェストすることが可能になる。

受付部１０は、ネットワーク５を介して、ユーザの端末（ＰＣ、スマートフォン、タブレット端末などの情報処理装置）から、通信により、文書の入力を受け付ける通信インタフェースである。

受付部１０が受け付ける文書とは、法律文書であってもよく、その他の専門書類であってもよい。この段階では、文書は構造化されていないデータであり、ＰＤＦファイルの状態であってもよく、テキストデータであってもよく、ワードデータであってもよい。これらはあくまで例示であり、その他の態様でも実現できる。この段階は構造化レベル０である。

分割部２０は、受付部１０が受け付けた文書を複数のセクションに分割する。図５の左部分に示すように、構造化されていないＰＤＦファイルのデータは、タイトル、章構造・節構造等の文書の階層構造、柱書、本文、注釈が区別なく一体となった構造となっている。例えば、タイトルと本文とが一体となっていたり、ページ番号が文章と一体となっていることがある。特に、文の途中にある単語やフレーズについて注釈などが入っていたりした場合に、文の途中でも改行がされ、注釈の記載が始まるような場合もある。そのような場合には、改ページをすることになるので、文の途中で文の続きが次のページに記載されてしまうことになる。このような不都合を解消するため、本実施形態における文作成装置１００では、タイトルの部分と、文章のうち注釈の記載の前までの部分と、注釈の記載の部分と、というように、１つのまとまった意味のある部分を１つのセクションとして、複数のセクションに分割部２０が分割する。例えば、図５の右部分に示すように、「第三者割当て」というタイトルがついている文書がある場合、「（ｆ）第三者割当て」を１つのセクション、「第三者割当ては、・・・支配権の移動」を１つのセクション、「注１７」・・・企業開示ガイドラインＣＩＩＩ（１）（４）」を１つのセクションというように複数のセクションに分割する。つまり、改ページにより分断されていた「支配権の移動」と「を伴う第三者割当て」を、「支配権の移動を伴う第三者割当て」という一連の文章として認識する。この段階が構造化レベル１である。この「第三者割当て」のようなキーワードタグとしては、法律文書であれば、条項の文言や専門用語や法条名（例えば、保険業法２７２条２項）が対象になる。技術用語の場合は、各技術分野の専門書に掲載されている専門用語やＪＩＳ用語が対象となる。論文では雑誌名、タイトル、著者名などが対象となる。技術雑誌では雑誌名、タイトル、著者名、各技術分野の専門用語やＪＩＳ用語が対象となる。このキーワードタグで文書を検索することで、そのキーワードタグが付されている章や節を閲覧することができ、通常のキーワード検索よりも検索の精度が向上する。

この構文的構造化の実現方法において、データを記録する形式はＨＴＭＬベースのデータフォーマットであってもよい。ＨＴＭＬ形式は機械可読性が高いので、ウェブ上での操作および閲覧に最適である。ただし、ＨＴＭＬベースのデータフォーマットは一例であり、ＸＭＬ等の他のデータフォーマットであってもよい。このデータフォーマットへの変換は、教師ありモデルを用いた機械学習により得られた学習モデルにより、全自動的に行われてもよく、半自動的に行われ、この学習モデルにより半自動的に行われた構文的構造化により得られた分割結果を人間が修正してもよく、全部人間が行ってもよい。

次に、構造化レベル２の意味的構造化について、図９〜１４を用いて説明する。

図９は、構造化レベル２の意味的構造化の実現方法を示すフローチャートである。まず、キーワードタグ集合を生成し、それに基づき、セクションごとにキーワードタグを付与し（以下、セクション−キーワードタグ間の関係性という）、キーワードタグどうしの階層関係を解析する（以下、キーワードタグ−キーワードタグ間の関係性という）。また、セクション間の参照関係を検出する（以下、セクション−セクション間の明示的に存在する関係性という）。そして、セクション−キーワードタグ間の関係性に基づき、セクションどうしの関連性の解析を行う（以下、セクション−セクション間の真の関係性という）。また、任意に、キーワードタグ−キーワードタグ間の関係性に基づきセクション−キーワードタグ間の関係性に基づき、セクションどうしの関係性の解析を行ってもよく、セクション−セクション間の明示的に存在する関係性に基づきセクション−キーワードタグ間の関係性に基づき、セクションどうしの関係性の解析を行ってもよい。キーワードタグ集合の生成と、セクション−キーワードタグ間の関係性と、キーワードタグ−キーワードタグ間の関係性とを独立の手法として段階的に行ってもよく、同時に行ってもよい。

図１０は、キーワードタグ集合を生成する手法を具体的に説明している。法律書籍等の索引、辞書、Ｗｉｋｉｐｅｄｉａなどの単語や、法律書籍、法令、判例、官公庁資料などの大量の専門書類を入力として、ＴｅｘｔｒａｎｋやＲａｐｉｄＡｕｔｏｍａｔｉｃＫｅｙｗｏｒｄＥｘｔｒａｃｔｉｏｎ等のアルゴリズムを用いてキーワードタグ集合を出力する。図６は、構造化レベル２により意味的構造化された文書データを示すインタフェースを示している。例えば、「注１７」を注釈への参照として認識し、その下のセクションを注釈のセクションとして認識したり、法律の条項名を変色させ、その変色した法律の条項名の部分を選択すれば他の文書の他のセクションに移動することを実現するためのデータを作成することができる。キーワードタグ生成部３０は、分割部２０が分割した複数のセクションごとにキーワードタグを生成する。

キーワードタグ集合の生成の別の手法としては、自立語の類似度を考え、文書中に出現する自立語の集合の中で最も多くの語との類似性を認められる語を選ぶ手法（以下、手法Ｘと呼ぶ）が用いられる。これは、自立語の類似度は語の共起に基づいて考えられ、具体的にはｗｏｒｄ２ｖｅｃを用いる。ｗｏｒｄ２ｖｅｃは語の共起の予測に用いる機械学習モデルの隠れ層の行列により表現される。また、最も多くの語との類似性を認められる語は、ｗｏｒｄ２ｖｅｃのコサイン距離を重みとした有向グラフのページランクを考えることで選ぶことができる。

キーワードタグ集合の生成の具体的な手法としては、また、文書からＴｅｘｔｒａｎｋやＲａｐｉｄＡｕｔｏｍａｔｉｃＫｅｙｗｏｒｄＥｘｔｒａｃｔｉｏｎ等のアルゴリズムにキーワードタグの組み合わせであるキーフレーズを選ばせ、その中から特徴的な単語を選ぶ手法が用いられる。より具体的には、キーフレーズの選択には機械学習を用いる手法が有力であり、入力は文書全体で出力はキーフレーズというような学習と予測を行う。

キーワードタグ集合の生成の具体的な手法としては、また、文書に出現する自立語をノードとしｎワード以内での単語の共起を枝とした、出現順を方向とする有向グラフで単語集合を表現し、各ノードに対して何らかのスコアを算出し、最もスコアの高いノードを選ぶ手法が用いられる。各ノードのスコアの算出の代表的なアルゴリズムとしてはページランクのアルゴリズムが挙げられる。

次に、キーワードタグ生成部３０は、キーワードタグ集合を生成し、生成されたキーワードタグ集合と、分割部２０が文書データを分割して作ったセクションの集合を入力として、木構造になったキーワードタグ集合が出力される。具体的には、Ｔｅｘｔｒａｎｋ、ＲａｐｉｄＡｕｔｏｍａｔｉｃＫｅｙｗｏｒｄＥｘｔｒａｃｔｉｏｎ、Ｗｏｒｄ２Ｖｅｃ、ＴｏｐｉｃＭｏｄｅｌ等のアルゴリズムを用いて、セクションごとにセクションを意味的に表すキーワードタグが付与される。図７は、この付与されたキーワードがタグとして、各章や各節の下に表示されているユーザインタフェースである。例として、１つのセクションに「（ｆ）第三者割当て」が項目立てされており、その項目の下に「第三者割当て」および「規制」がタグとして付与されており、文中に「第三者割当て」という語が記号Ｔ１で示すようにハイライトされ、「規制」の内容を示す法律の条項が記号Ｔ２で示すようにハイライトされている。

タグを付与する方法としては、キーワードタグ生成部３０がキーワードタグを生成する上記具体的手法に加え、上記具体的手法の実行結果からそのままキーワードタグを付与する方法と、上記具体的手法の結果からキーワードタグごとの重みづけ（ｔｆ−ｉｄｆなどを用いる）のあるキーワードタグ集合を生成し、各セクションに対して上位ｎ位のキーワードタグのみをキーワードタグとして付与する方法が考えられる。また、この二手法を並行して実施し、選ばれたキーワードタグ集合の和集合をキーワードタグとする方法と、選ばれたキーワードタグ集合の積集合をキーワードタグとする方法がある。

図１２は、キーワードタグどうしの階層関係の解析、つまりキーワードタグ−キーワードタグ間の関係性を示す手法を示している。この手法により、キーワードタグ集合とセクションの集合とを入力として、木集合になったキーワードタグ集合が出力される。キーワードタグどうしの関係の解析とは、選ばれた二つのキーワードタグについて、互いに類似するのか、また類似する場合にはその類似の度合いがどの程度であるかを解析すること、また、選ばれたキーワードタグが指示する概念どうしが包含関係にあるのか、また包含関係にある場合にどちらがどちらを包含するのかを解析することをいう。具体的には、類似性の評価方法として、キーワードタグの付与の際に、より多くの文に同時に付与されたキーワードタグは類似性が高いと認める手法と、キーワードタグ集合の生成の際に計算された共起度が高い対については類似性が高いと認める手法とがある。また、包含性の評価方法として、例えば、ある範囲においてａが出現する条件において、そこにａとｂが共起する条件付き確率と、ある範囲においてｂが出現する条件において、そこにｂとａが共起する条件付き確率を考えたとき、後者が前者よりも大きい場合、ａはｂを包含するキーワードタグであると考える。同様に、前者が後者よりも大きい場合、ｂはａを包含するキーワードタグであると考えることができる。

また、手法Ｘと同じ方法により、ａの方がｂよりもより多くの語との類似性が認められる場合、ａはｂを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、ｂの方がａよりもより多くの語との類似性が認められる場合、ｂはａを包含していると考えることができる。逆に、ｂの方がａよりもより多くの語との類似性が認められる場合、ａはｂを包含していると考えることによってキーワードタグどうしの包含関係の解析を行うこともできる。同様に、ａの方がｂよりもより多くの語との類似性が認められる場合、ｂはａを包含していると考えることができる。

また、書籍の文章の論理構造において、より下位の章の見出しに出現するキーワードタグは、より上位の章の見出しで出現するキーワードタグに包含されると考えることができる。

あるいは、例えば、書籍の索引に「目論見書」と「目論見書の虚偽記載」という二つの項目があれば、後者は前者の文字列に付して助詞「の」を用いて下位概念を説明しているものと推定し、「虚偽記載」は「目論見書」の下位概念であるということが分かるというように、索引を用いて項目間の部分文字列関係からキーワードタグ間の関係を推定できる。同様に、目次の階層構造を用いることもできる。

あるいは、文章の係り受け等を解析し、キーワードタグ間の上位・下位を判定することもできる。

図１３は、セクション間の明示的な参照関係（セクション−セクション間の明示的に存在する関係性）を検出する手法を示している。制御部４０は、判定部５０と、特定部６０とを備えている。判定部５０は、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する。具体的には、「注：」、「〜参照」、「例、」などの文言や、法律の条項（例えば、特許法第２条１項。例示であって、他に例えば保険業法２７２条２項であってもよい）、業界用語が含まれている場合には、それらを参照表記であることが分かっている文字列の集合として認識する。また、参照表記であることが分かっていないセクションの集合からも、参照を示唆する文言が含まれているか否かを判定する。

このセクション間の明示的な参照関係（セクション−セクション間の明示的に存在する関係性）を検出する手法において、判定部５０は、パターンマッチを用いてもよく、系列ラベリング問題としてモデリングした上で条件付き確率場等またはニューラルネットワークを用いてもよく、もしくはニューラルネットワー用いてもよい。

参照表記であることが分かっていない文字列を含む、セクションに分かれた大量の法律文書であるセクションの集合に基づくセクション間の明示的な参照関係の解析手法としては、書籍等のＰＤＦデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くことおよびニューラルネットワークを使用することが挙げられる。

参照表記であることが分かっている文字列を含む文字列の集合に基づくセクション間の参照関係の解析手法としては、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することを挙げることができる。

系列ラベリングとは、単語列やトークン列等の系列に対して、系列を構成する各要素に対して全体を通しての最適性を考慮してラベル付けする、という問題設定である。ここでは、セクションの集合と文字列の集合とから、別セクションへのリンクが付与されたセクションの集合を出力する。この系列ラベリングを解くための手法として、条件付き確率場を用いて解く手法と、ニューラルネットワークベースの手法を用いて解く手法とがあり、その際に副次的にリンク先の特定も同時に解くことができる場合がある。

また、明示的な参照関係の解析手法としてパターンマッチがある。パターンマッチは、書籍等の中でどのような表現がリンクとして使われがちかという情報をもとに系列ラベリングを解く手法である。すなわち、「詳細は○○を参照せよ」と書いてあれば、この部分は○○へのリンクと思われる、というようなパターンを用意することにより、自動または半自動または手動で明示的な参照関係を解析できる。

また、上記セクション間の明示的な参照関係の解析手法を用いて確率的に同定された参照先のセクション候補群のうちに、参照先のセクションである確率が閾値よりも高いものが無い場合に、専門書類データベース３１１に候補群を記録しておき、参照先候補をユーザに提示し選択させ、その選択を蓄積することにより、検索の精度を向上させる。

書籍等のＰＤＦデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することにより、別セクションへのリンクが付与されたセクションの集合が出力される。これらの手法は組み合わせて用いてもよく、どれか一つの手法を単独で用いてもよい。

このセクション間の明示的な参照関係（セクション−セクション間の明示的に存在する関係性）を検出する手法において、特定部６０は、判定部５０が参照を示唆する文言が含まれると判定した場合に、参照先のセクションを特定する。

このセクション間の明示的な参照関係（セクション−セクション間の明示的に存在する関係性）を検出する手法において、リンク生成部７０は、特定部６０が特定した参照先のセクションに文書からのリンクを生成する。

このセクション間の明示的な参照関係（セクション−セクション間の明示的に存在する関係性）を検出する手法において、リンク出力部８０は、特定部６０が特定した参照先へのリンクを出力する。

図１４は、セクションどうしの関連性（セクション−セクション間の真の関係性）の解析手法を示している。この解析手法において、セクションごとにセクションを意味的に表すキーワードタグが付与されたセクションの集合と、別セクションへのリンクが付与されたセクションの集合と、木構造になったキーワードタグ集合とを入力として、セクションごとの関連性（類似度等）が出力される。

このセクションどうしの関連性（セクション−セクション間の真の関係性）の解析手法において、関連文書取得部９０は、ある文書に類似する関連文書を示す情報を取得する。関連文書取得部９０は、セクションおよび参照先のセクションから、関連文書を取得する。また、関連文書取得部９０は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得する。

具体的には、入力としてセクションが与えられており、各セクションにはリンクやキーワードタグが付与されているというような状況設定で、手法としては、セクション群をリンクやキーワードタグ、セクションの位置、セクションに出現する語彙などを手掛かりにして粗くネットワーク構造化し、その構造上で粗い情報をもとにさらに関連性を精緻化していく手法が挙げられる。例えば、セクションＡとセクションＢは、同じセクションＣへのリンクを含むとすると、このとき、まずＡとＣ、およびＢとＣを「リンクがある」という情報を手掛かりに粗いネットワーク上で結び、こうして粗いネットワークを構築したうえで、ＡとＣ、ＢとＣが直接連結していることをもとにＡとＢもある程度関連していると推論し、ＡとＢも結ぶ、というようなことを行うことで、関連性ネットワークを構築できる。その関係性ネットワークとはコンピュータ科学的には「グラフ」と呼ばれるデータ構造の１つで、グラフ理論の問題として定式化して解析することが可能である。もう一つの手法は埋め込みをベースとするもので、各セクションは、上記ネットワーク構造化と同様、リンクやキーワードタグなど複数の手がかりを持っており、これらを使って各セクションを低次元ユークリッド空間上のベクトルに対応付けることができる。こうすることで、ベクトルとベクトルの類似性を計算する既知の手法を使って、セクションとセクションの類似性を計算できる。

このセクションどうしの関連性（セクション−セクション間の真の関係性）の解析手法において、関連文書出力部１１０は、関連文書取得部９０が取得した関連文書を出力する。

このような構成を備えることにより、本実施形態に係る文作成装置によれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語（キーワードタグ）の文中での使われ方を解析することで、専門書類（例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい）間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことを実現させることが可能になる。

［文作成方法］
以下に、図８を参照して、本発明に係る文作成方法について説明する。

文作成方法は、受付ステップＳ１０、分割ステップＳ２０、キーワードタグ生成ステップＳ３０、判定ステップＳ４０、検出ステップＳ４１、同定ステップＳ４２、特定ステップＳ５０、リンク生成ステップＳ６０、リンク出力ステップＳ７０、関連文書取得ステップＳ８０および関連文書出力ステップＳ９０を含む。以下、それぞれ具体的に説明する。

受付ステップＳ１０では、受付部１０が、ネットワーク５を介して、ユーザの端末（ＰＣ、スマートフォン、タブレット端末などの情報処理装置）から、通信により、文書の入力を受け付ける通信インタフェースである。

受付部１０が受け付ける文書とは、法律文書であってもよく、その他の専門書類であってもよい。この段階では、文書は構造化されていないデータであり、ＰＤＦファイルの状態であってもよく、テキストデータであってもよく、ワードデータであってもよい。これらはあくまで例示であり、その他の態様でも実現できる。

分割ステップＳ２０は、分割部２０が、受付部１０が受け付けた文書を複数のセクションに分割する。図５の左部分に示すように、構造化されていないＰＤＦファイルのデータは、タイトル、章構造、節構造、柱書、本文、注釈が区別なく一体となった構造となっている。例えば、タイトルと本文とが一体となっていたり、文の途中にある単語やフレーズについて注釈などが入ったりした場合に、文の途中でも改行がされ、注釈の記載が始まるような場合がある。そのような場合には、改ページをすることになるので、文の途中で文の続きが次のページに記載されてしまうことになる。このような不都合を解消するため、本実施形態における文作成装置１００では、タイトルの部分と、文章のうち注釈の記載の前までの部分と、注釈の記載の部分と、というように、１つのまとまった意味のある部分を１つのセクションとして、複数のセクションに分割部２０が分割する。例えば、図５の右部分に示すように、「第三者割当て」というタイトルがついている文書がある場合、「（ｆ）第三者割当て」を１つのセクション、「第三者割当ては、・・・支配権の移動」を１つのセクション、「注１７」・・・企業開示ガイドラインＣＩＩＩ（１）（４）」を１つのセクションというように複数のセクションに分割する。つまり、改ページにより分断されていた「支配権の移動」と「を伴う第三者割当て」を、「支配権の移動を伴う第三者割当て」という一連の文章として認識する。これを構文的構造化と呼ぶ。このキーワードタグで文書を検索することで、そのキーワードタグが付されている章や節を閲覧することができ、通常のキーワード検索よりも検索の精度が向上する。

この構文的構造化の実現方法において、データを記録する形式はＨＴＭＬベースのデータフォーマットであってもよい。ＨＴＭＬ形式は機械可読性が高いので、ウェブ上での操作および閲覧に最適である。ただし、ＨＴＭＬベースのデータフォーマットは一例であり、ＸＭＬ等の他のデータフォーマットであってもよい。このデータフォーマットへの変換は、教師ありモデルを用いた機械学習により得られた学習モデルにより全自動的に行われてもよく、半自動的に行われ、この学習モデルにより半自動的に行われた構文的構造化により得られた分割結果を人間が修正してもよく、全部人間が行ってもよい。

以上、構文的構造化の手法について述べたが、次に構造化レベルの第２段階としての意味的構造化について説明する。図６に示すように、例えば、「注１７」を注釈として認識し、その下のセクションを注釈のセクションとして、法律の条項名を変色させ、その変色した法律の条項名の部分を選択すれば他の文書の他のセクションに移動することを実現できるためのデータを作成することができる。キーワードタグ生成ステップＳ３０は、分割部２０が分割した複数のセクションごとにキーワードタグを生成する。具体的には、法律書籍等の索引、辞書、Ｗｉｋｉｐｅｄｉａなどの単語や、法律書籍、法令、判例、官公庁資料などの大量の専門書類から、ＴｅｘｔｒａｎｋやＲａｐｉｄＡｕｔｏｍａｔｉｃＫｅｙｗｏｒｄＥｘｔｒａｃｔｉｏｎ等のアルゴリズムを用いてキーワードタグ集合を生成する。

キーワードタグ集合の生成のさらに別の手法としては、また、文書からＴｅｘｔｒａｎｋやＲａｐｉｄＡｕｔｏｍａｔｉｃＫｅｙｗｏｒｄＥｘｔｒａｃｔｉｏｎ等のアルゴリズムにキーワードタグの組み合わせであるキーフレーズを選ばせ、その中から特徴的な単語を選ぶ手法が用いられる。より具体的には、キーフレーズの選択には機械学習を用いる手法が有力であり、入力は文書全体で出力はキーフレーズというような学習と予測を行う。特徴的な単語の選択には、ｔｆ−ｉｄｆなどを用いる。

具体的な手法としては、また、文書に出現する自立語をノードとしｎワード以内での単語の共起を枝とした、出現順を方向とする有向グラフで表現し、ノードのスコアを算出し、最もスコアの高いノードを選ぶ手法が用いられる。各ノードのスコアの算出の代表的なアルゴリズムとしてはページランクのアルゴリズムが挙げられる。

具体的な手法としては、また、自立語の共起度を自立語の共起頻度で割った値をスコアとし、スコアが最大となりかつコーパス上に存在する自立語の順列を考える手法が用いられる。より具体的には、文書に出現する自立語を各行列に対応させた正方行列を考え、各要素は対応する語のｎワード以内での共起の回数とし、このとき、共起度は行および列の和、共起頻度は行および列の中での最大値である。

次に、キーワードタグ生成ステップＳ３０は、キーワードタグ生成部３０が生成したキーワードタグ集合からキーワードタグを生成する。具体的には、キーワードタグ生成部３０が生成したキーワードタグ集合と、分割部２０が分割して作ったセクションの集合から、Ｔｅｘｔｒａｎｋ、ＲａｐｉｄＡｕｔｏｍａｔｉｃＫｅｙｗｏｒｄＥｘｔｒａｃｔｉｏｎ、Ｗｏｒｄ２Ｖｅｃ、ＴｏｐｉｃＭｏｄｅｌ等のアルゴリズムを用いて、セクションごとにセクションを意味的に表すキーワードタグが付与される。図７は、この付与されたキーワードタグが各章や各節の下に表示されているユーザインタフェースである。例として、１つのセクションに「（ｆ）第三者割当て」が項目立てされており、その項目の下に「第三者割当て」および「規制」がキーワードタグとして付与されており、文中に「第三者割当て」という語が記号Ｔ１で示すようにハイライトされ、「規制」の内容を示す法律の条項が記号Ｔ２で示すようにハイライトされている。

また、キーワードタグどうしの階層関係の解析、つまりキーワードタグ−キーワードタグ間の関係性の解析も行うことができる。この手法により、キーワードタグ集合とセクションの集合とを入力として、木集合になったキーワードタグ集合が出力される。キーワードタグどうしの関係の解析とは、選ばれた二つのキーワードタグについて、互いに類似するのか、また類似する場合にはその類似の度合いがどの程度であるかを解析すること、また、選ばれたキーワードタグが指示する概念どうしが包含関係にあるのか、また包含関係にある場合にどちらがどちらを包含するのかを解析することをいう。具体的には、類似性の評価方法として、キーワードタグの付与の際に、より多くの文に同時に付与されたキーワードタグは類似性が高いと認める手法と、キーワードタグ集合の生成の際に計算された共起度が高い対については類似性が高いと認める手法とがある。また、包含性の評価方法として、例えば、ある範囲においてａが出現する条件において、そこにａとｂが共起する条件付き確率と、ある範囲においてｂが出現する条件において、そこにｂとａが共起する条件付き確率を考えたとき、後者が前者よりも大きい場合、ａはｂを包含するキーワードタグであると考える。同様に、前者が後者よりも大きい場合、ｂはａを包含するキーワードタグであると考えることができる。

また、手法Ｘと同じ方法により、ａの方がｂよりもより多くの語との類似性が認められる場合、ａはｂを包含していると考える。同様に、ｂの方がａよりもより多くの語との類似性が認められる場合、ｂはａを包含していると考える。書籍の構造において、より下位の章の見出しに出現するキーワードタグは、より上位の章の見出しで出現するキーワードタグに包含されると考える。

次に、判定ステップＳ４０は、複数のセクション中に参照を示唆する文言が含まれるか否かを判定する。具体的には、「注：」、「〜参照」、「例、」などの文言や、法律の条項（例えば、特許法第２条１項）、業界用語が含まれている場合には、それらを参照表記であることが分かっている文字列の集合として認識する。また、参照表記であることが分かっていないセクションの集合からも、参照を示唆する文言が含まれているか否かを判定する。

判定ステップＳ４０は、検出ステップＳ４１でパターンマッチ、条件付き確率場等の系列ラベリング問題を解く手法およびニューラルネットワークのうち少なくともいずれか１つを用いて参照を示唆する文言を検出し、同定ステップＳ４２でリンクのそれぞれについて参照先のセクションを同定する。

書籍等のＰＤＦデータ上での参照表記の位置から参照先の位置を推定すること、パターンマッチにより参照だと思われる表現を機械的に抽出すること、「系列ラベリング」問題としてモデリングした上で条件付き確率場などを用いて解くこと、ニューラルネットワークを使用することにより、別セクションへのリンクが付与されたセクションの集合が出力される。これら４つの手法は組み合わせて用いてもよく、どれか一つの手法を単独で用いてもよい。

特定ステップＳ５０では、判定ステップＳ４０で判定部５０が参照を示唆する文言が含まれると判定した場合に、特定部６０が、参照先のセクションを特定する。

リンク生成ステップＳ６０は、特定部６０が特定した参照先のセクションに文書からのリンクを生成する。

リンク出力ステップＳ７０は、特定部６０が特定した参照先へのリンクを出力する。

関連文書取得ステップＳ８０では、関連文書取得部９０が、ある文書に類似する関連文書を示す情報を生成する。関連文書取得部９０は、セクションおよび参照先のセクションから、関連文書を生成する。また、関連文書取得部９０は、グラフ理論を用いて関連性を推論するネットワーク構造化、および埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、関連文書を取得する。

具体的には、入力としてセクションが与えられており、各セクションにはリンクやキーワードタグが付与されているというような状況設定で、手法としては、セクション群をリンクやキーワードタグ、セクションの位置、セクションに出現する語彙などを手掛かりにして粗くネットワーク構造化し、その構造上で粗い情報をもとにさらに関連性を精緻化していく手法が挙げられる。例えば、セクションＡとセクションＢは、同じセクションＣへのリンクを含むとすると、このとき、まずＡとＣ、およびＢとＣを「リンクがある」という情報を手掛かりに粗いネットワーク上で結び、こうして粗いネットワークを構築したうえで、ＡとＣ、ＢとＣが直接連結していることをもとにＡとＢもある程度関連していると推論し、ＡとＢも結ぶ、というようなことを行うことで、関連性ネットワークを構築できる。その関係性ネットワークとはコンピュータ科学的には「グラフ」と呼ばれるデータ構造の１つで、グラフ理論の問題として定式化して解くことが可能である。もう一つの手法は埋め込みをベースとするもので、各セクションは、上記ネットワーク構造化と同様、リンクやキーワードタグなど複数の手がかりを持っており、これらを使って各セクションを低次元ユークリッド空間上のベクトルに対応付けることができる。こうすることで、ベクトルとベクトルの類似性を計算する既知の手法を使って、セクションとセクションの類似性を計算できる。

関連文書出力ステップＳ９０は、関連文書出力部１１０が、関連文書取得部９０が取得した関連文書を出力する。

このようなステップを備えることにより、本実施形態に係る文作成方法によれば、分散している専門書類リソースを電子的に一元化することで、横断的に情報を検索し、いち早く必要な情報にアクセスすることができ、専門書類を単に電子的に閲覧可能にするだけでなく、自然言語処理技術等を用いて専門書類を分析および整理し、専門書類の相互参照関係や特有の用語（キーワードタグ）の文中での使われ方を解析することで、専門書類（例えば、法律文書。例示であって、類似の文書間相互参照が重要な意味を持つ他の専門領域における文書でもよい）間の関係性を整理し、これにより、すべての専門書類から、必要な情報へのピンポイントなアクセス、関連する情報の漏れない調査を行うことが可能になる。
［文作成プログラム］

本発明に係る文作成プログラムでは、本発明の文作成装置が有する機能をコンピュータに実現させる。

また、前述した各種の変形例を選択し、適宜組み合わせてもよいし、その他の変形を施してもよい。

＜補足＞
上記実施形態には示していないが、上記文作成装置が作成したデータを用いて実現される機能として、関連文献を逆引きする機能を含んでよい。閲覧中の文献の全体或いは特定箇所が別の文献により参照されている場合、その閲覧中の文献の全体或いは特定箇所を参照している文献があることがある。従来であれば、閲覧中の文献を参照している他の文献を発見することは不可能であった。なぜなら、この世に存在するすべての書籍は、その箇所を参照している可能性があるため、ある文献へ言及している他の文献を網羅的に探し出すためには、世の中の全文献を確認する必要があり、このことは現実的な時間制約上、実行不可能であるためである。本実施形態に係る発明においては、上述の意味的構造化により、すべての文献のセクション間の明示的参照関係が抽出されているため、ある文献を参照している他の文書が「この文書を参照している文書」としてプロダクト画面上に表示され、それらの文書の当該箇所に移動することができる。具体的には、上記実施形態に示した手法により参照先の文献も同様に構造化してセクションに分割するとともに各セクションに対するタグ付けを実行し、参照先の関連するセクションに対してリンクを貼る。これによって、関連文献の中の関連する部分を参照することができ、従来は不可能だったある文書を参照している他の文書を発見することと、被参照先の本の中から当該資料への言及を含むセクションへと移動することが可能になる。例えば、閲覧していた「大阪地方裁判所…」という判決を参照している文書が表示されているとすると、例えば、図７に示すようなＵＩにおいて「被リンク検索」というボタンを設けて、当該ボタンを押すことにより「この文書を参照している文書」というポップアップが表示され、その中の１冊を選択すると、当該判例が参照されている箇所に移動することが出来る。

また、上記実施形態で実現される機能として、表記ゆれを修正する機能が含まれてもよい。従来、書籍中に法律名等を略して「保険業法第２７２条１項」が「法２７２条１項」と書いてあったり、また、法律用語であっても、「第三者割当て」「第三者割当」「第三者割当増資」などの表記ゆれが存在したりする。このような場合、「法２７２条１項」と検索すると、その文字列を含む全ての文書が出てきてしまい、保険業法以外の法律の２７２条１項に関する言及を抽出してしまう。本実施形態に係る発明においては、上述の意味的構造化により、法条や法律用語への言及がある場合、それらを自動的にキーワードタグとして認識する。また、キーワードタグ同士の関係性も抽出されるため、例えば、「法２７２条１項」は「保険業法２７２条１項」と同じ意味であることや、「第三者割当て」「第三者割当」「第三者割当増資」の３つは同じ意味であることも抽出される。このようにして抽出された用語を、文作成装置が互いに関連付けて記憶することにより表記ゆれを吸収し、それぞれ表現は異なるものの同じ内容を示す場合に、同じセクションや説明を参照するようにリンクを貼ることができる。これにより、キーワードタグを用いた検索を行うと、キーワードタグが付与された文章が含まれる各文献のセクションがすべてヒットして、関連度順に並べられた状態で検索結果一覧として表示され、たとえば「保険業法２７２条１項」についての全ての文献を検索することが可能となる。「保険業法第２７２条」というキーワードタグを用いて検索を実行した結果がイメージ画像として表示されているとすると、同キーワードタグが付された文章が含まれるセクションとしては、『詳解保険業法』の中の「第５章少額短期保険業者などの規制・監督」というセクションがヒットする。なぜなら、当該セクションの中に含まれている「法２７２条１項」という言及が、「保険業法第２７２条」というキーワードタグとして事前に認定され、キーワードタグが付与されているためである。従来はある本において「法２７２条」と書かれているだけでは、それが保険業法なのか、商法なのか、明示的にはわからず、「保険業法第２７２条」と検索しても検索結果一覧に表示されることはなかった。しかし、当該書籍の「法２７２条」という文字列は、その文脈等の情報から「保険業法第２７２条」というキーワードタグであると認識することを事前に行うことで、「保険業法第２７２条」というキーワードタグでの検索結果に対して、文脈等の情報から「保険業法第２７２条」というキーワードが付与されているすべてのセクションおよびそのセクションを含む文献（文字列としては「法２７２条」のみが含まれたものも含む）を、検索結果一覧に表示することが可能になる。

上記実施形態で実現される機能として、キーワードのセクション別ヒット数を表示する機能がある。従来、文献をキーワードタグ検索ではなく、単純な完全一致検索であるキーワード検索すると、一般的にはキーワードが本文中でハイライトされ、それを一つずつ見て必要な情報を探すことになる。本実施形態に係る発明においては、上述の構文的構造化により、文献の本文の左側に表示される目次（ＴＯＣ：Ｔａｂｌｅｏｆｃｏｎｔｅｎｔｓ）上で、どのセクションにおいて、そのキーワードが何個あるかが表示される。これにより、瞬時に読むべき部分かどうかを、目次の文言と、ヒット数から判断することができる。例えば、「株式等売渡請求強圧性」という二つの単語を用いて本文内検索を実行すると、その際、本文内では、それぞれのキーワードが別の色でハイライトされており、視認しやすくなっている。また、左側に表示されるＴＯＣ（Ｔａｂｌｅｏｆｃｏｎｔｅｎｔｓ）では、各見出しの右側に数字が表示される。この数字は、各見出しが付されたページ内に何個当該のキーワードが含まれているかを示す。この機能によって、キーワードを本文内検索した際に、キーワードが多く含まれている箇所を瞬時に特定して、その場所へと移動することが可能になる。

また、文作成装置は、参照を示唆する文言として、「こそあど」言葉に対してリンクを貼ったり、「○○以上」、「××以下」、「△△以外」のような条件節に対して、その条件の分岐先をリンク付けたりしてもよい。「こそあど」言葉とは、これとかあれとかのような指示名詞であり、そのような言葉を文中から探索して、その場合の文脈解析により、指示名詞が何を指すのかを特定してリンクを貼ることができる。条件節についても同様に条件の元となる内容を特定し、その場合の条件による分岐先を特定し、その条件のいずれを指すのかを特定することによって、何を指すのかを特定してリンクを貼ることができる。

１文作成システム
２コンピュータ
３サーバ
４端末装置
５ネットワーク
１００文作成装置
１０受付部
２０分割部
３０キーワードタグ生成部
４０制御部
５０判定部
５１検出部
５２同定部
６０特定部
７０リンク生成部
８０リンク出力部
９０関連文書取得部
１１０関連文書出力部

Claims

文書の入力を受け付ける受付部と、
前記文書を複数のセクションに分割する分割部と、
前記分割部が分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成部と、
前記複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定部と、
前記参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定部とを備える
文作成装置。
前記特定部が特定した前記参照先のセクションに前記文書からのリンクを生成するリンク生成部と、
前記特定部が特定した前記参照先へのリンクを出力し、当該リンクを選択することにより前記参照先への移動を可能にするリンク出力部と、
をさらに備える
請求項１に記載の文作成装置。
前記判定部は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか１つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項２に記載の文作成装置。
前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得部と、
前記関連文書を出力する関連文書出力部と、
をさらに備える請求項１〜３のいずれか１項に記載の文作成装置。
前記関連文書取得部は、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とする請求項４に記載の文作成装置。
前記関連文書取得部は、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項４に記載の文作成装置。
前記関連文書取得部は、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項４〜６に記載の文作成装置。
文書の入力を受け付ける受付ステップと、
前記文書を複数のセクションに分割する分割ステップと、
前記分割ステップが分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成ステップと、
前記複数のセクション中に参照を示唆する文言が含まれるか否かを判定する判定ステップと、
前記参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定ステップとを備える
文作成方法。
前記特定ステップが特定した前記参照先のセクションに前記文書からのリンクを生成する生成ステップと、
前記特定ステップが特定した前記参照先へのリンクを出力する出力ステップと、
をさらに備える
請求項８に記載の文作成方法。
前記判定ステップは、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか１つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項９に記載の文作成方法。
前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得ステップと、
前記関連文書を出力する関連文書出力ステップと、
をさらに備える請求項８〜１０のいずれか１項に記載の文作成方法。
前記関連文書取得ステップは、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とする請求項１１に記載の文作成方法。
前記関連文書取得ステップは、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項１１に記載の文作成方法。
前記関連文書取得ステップは、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項１１〜１３に記載の文作成方法。
コンピュータに、
文書の入力を受け付ける受付機能と、
前記文書を複数のセクションに分割する分割機能と、
前記分割機能が分割した前記複数のセクションごとにキーワードタグを生成するキーワードタグ生成機能と、
前記セクション中に参照を示唆する文言が含まれるか否かを判定する判定機能と、
参照を示唆する文言が含まれる場合に、参照先のセクションを特定する特定機能と
を実現させることを特徴とする文作成プログラム。
前記コンピュータに、
前記特定機能が特定した前記参照先のセクションに前記文書からのリンクを生成するリンク生成機能と、
前記特定機能が特定した前記参照先へのリンクを出力するリンク出力機能と、
をさらに実現させる
ことを特徴とする請求項１５に記載の文作成プログラム。
前記判定機能は、パターンマッチ、条件付き確率場等の系列ラベリング問題を解くための手法及びニューラルネットワークのうち少なくともいずれか１つを用いて前記参照を示唆する文言を検出し、前記リンクのそれぞれについて前記参照先のセクションを同定することを特徴とする請求項１６に記載の文作成プログラム。
前記コンピュータに、
前記文書に類似し、前記参照を示唆する文言の内容を示す参照先のデータである関連文書を示す情報を取得する関連文書取得機能と、
前記関連文書を出力する関連文書出力機能と、
をさらに実現させる請求項１５〜１７のいずれか１項に記載の文作成プログラム。
前記関連文書取得機能は、前記セクション及び前記参照先のセクションから、前記関連文書を取得することを特徴とすることを特徴とする請求項１８に記載の文作成プログラム。
前記関連文書取得機能は、前記文書とは異なる他の文書から、前記関連文書を取得することを特徴とする請求項１８に記載の文作成プログラム。
前記関連文書取得機能は、グラフ理論を用いて関連性を推論するネットワーク構造化、及び埋め込みに基づく低次元ユークリッド空間上での類似度計算のいずれかにより、前記関連文書を取得することを特徴とする請求項１８〜２０に記載の文作成プログラム。