JP2017187823A - 文言追記装置、文言追記方法及び文言追記プログラム - Google Patents

文言追記装置、文言追記方法及び文言追記プログラム Download PDF

Info

Publication number
JP2017187823A
JP2017187823A JP2016073871A JP2016073871A JP2017187823A JP 2017187823 A JP2017187823 A JP 2017187823A JP 2016073871 A JP2016073871 A JP 2016073871A JP 2016073871 A JP2016073871 A JP 2016073871A JP 2017187823 A JP2017187823 A JP 2017187823A
Authority
JP
Japan
Prior art keywords
keyword
combination
word
document file
addition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016073871A
Other languages
English (en)
Other versions
JP6790328B2 (ja
Inventor
祐二 新井
Yuji Arai
祐二 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maeda Corp
Original Assignee
Maeda Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maeda Corp filed Critical Maeda Corp
Priority to JP2016073871A priority Critical patent/JP6790328B2/ja
Publication of JP2017187823A publication Critical patent/JP2017187823A/ja
Application granted granted Critical
Publication of JP6790328B2 publication Critical patent/JP6790328B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】文書に追記する文言の妥当性を簡易な方法で向上させる。【解決手段】文言追記装置は、文書データを読み出し、内容に文言を追記する装置であって、第1のキーワード及び第2のキーワードの組み合わせに対応付けて、追記する文言を記憶する記憶部と、文書データにおいて、第1のキーワード及び第2のキーワードを含む文を検索し、見つかった場合、記憶部において当該第1のキーワード及び第2のキーワードの組み合わせに対応付けられた文言を見つかった文に関連付けて追記する文言追記部とを有する。記憶部は、第1のキーワード又は第2のキーワードとして、優先順位が定められた複数の単語を記憶すると共に、当該複数の単語の各々を含む組み合わせに対応付けて文言を記憶し、文言追記部は、優先順位に従って選択された単語を含む組み合わせが、文書データの中の文に存在する場合、当該組合せに対応付けて記憶部に記憶された文言を追記する。【選択図】図1

Description

本発明は、文言追記装置、文言追記方法及び文言追記プログラムに関する。
従来、文書から対象となる単語を抽出し、注釈を付加するという技術が提案されている(例えば、特許文献1及び特許文献2)。
特開平8−153091号公報 特開平9−44486号公報
従来、文中の単語に注釈を付加する技術は提案されているが、キーワード検索を行うだけでは、複雑な条件に基づいて注釈を付加する対象を抽出することができない。例えば、報告書から進捗状況を判断したり、ある対象に所定の動作を行う旨の記載を抽出したりして注釈を追記するような、意味的な判断は難しい。また、相反する意味の語句を含む文に対して、内容を判断することも容易ではない。
一方、意味解析のような自然言語処理によって条件を判断する場合、キーワード検索と比較して処理負荷が大きくなるだけでなく、条件を定義するために熟練を要することになる。
そこで、本発明は、文書に追記する文言の妥当性を簡易な方法で向上させることを目的とする。
本発明に係る文言追記装置は、文書ファイルを読み出し、内容に文言を追記する装置であって、第1のキーワード及び第2のキーワードの組み合わせに対応付けて、追記する文言及び当該組み合わせを適用する優先順位を記憶する記憶部と、文書ファイルが、第1のキーワード及び第2のキーワードを含む場合、記憶部において当該第1のキーワード及び第2のキーワードの組み合わせに対応付けられている文言を追記する文言追記部とを有し、文言追記部は、優先順位に従って組み合わせに含まれるキーワードが文書ファイルに存在するか判断し、存在する場合、見つかった組合せに対応付けて記憶部に記憶されている文言を追記する。
このようにすれば、第1のキーワード及び第2のキーワードを優先順位に従って検索し、見つかった組み合わせに対応付けられた文言を追記することができる。単語の組み合わせに応じて追記する文言を変えるだけでなく、第1のキーワード又は第2のキーワードの組み合わせに優先度を定めておくことで、追記する文言を適切に選択できるようになる。すなわち、文書に追記する文言の妥当性を簡易な方法で向上させることができる。
また、記憶部は、第1のキーワード又は第2のキーワードと上位概念、下位概念、又は同一概念の関係にある単語を対応付けてさらに記憶し、文言追記部は、第1のキーワード及び第2のキーワードの各々について、上位概念、下位概念、又は同一概念の関係にある単語に置き換えた組み合わせが存在する場合、記憶部において当該第1のキーワード及び
第2のキーワードの組み合わせに対応付けられている文言を追記するようにしてもよい。このようにすれば、文書ファイル中に表記の揺れがあった場合でも、適切な注釈を付加することができる。
また、第1のキーワード又は第2のキーワードは、上限及び下限の少なくともいずれかが定められた数値の範囲によって定義され、文言追記部は、数値の範囲によって定義されたキーワードについて、当該範囲に含まれる数値が文書ファイルに存在するか判断するようにしてもよい。このようにすれば、文中に含まれる数値が、所定の範囲に属するか否かを判断することで、文書に含まれる語句の規模を推定し、適切な文言を追記することができる。
また、第1のキーワードは、行為の対象として文書ファイル中に出現が期待される語句であり、第2のキーワードは、行為として出現が期待される語句であってもよい。このようにすれば、処理対象の文書データの内容に応じて、出現が期待される単語を定義しておくことができ、追記する文言の妥当性をより向上させることができる。
また、文言追記部は、文書ファイルの内容である文章に対し、文、段落又はページごとに組み合わせに含まれるキーワードが存在するか判断し、当該組み合わせに含まれるキーワードが存在すると判断された文、段落又はページに対し、文言を追記するようにしてもよい。このようにすれば、文書の形式に応じて、適切な単位で文言を追記することができるようになる。
また、記憶部に記憶される組み合わせは、第3のキーワードをさらに含むようにしてもよい。3以上のキーワードの組み合わせを検索することで、文言を追記すべきか否かの判断の精度をさらに向上させることができる。
なお、課題を解決するための手段に記載の内容は、本発明の課題や技術的思想を逸脱しない範囲で可能な限り組み合わせることができる。また、課題を解決するための手段の内容は、コンピュータ等の装置若しくは複数の装置を含むシステム、コンピュータが実行する方法、又はコンピュータに実行させるプログラムとして提供することができる。なお、プログラムを保持する記録媒体を提供するようにしてもよい。
本発明によれば、文書に追記する文言の妥当性を簡易な方法で向上させることができる。
注釈追記装置の一例を示す機能ブロック図である。 コンピュータの一例を示す装置構成図である。 追記処理の一例を示す図である。 概念辞書の内容の一例を示す図である。 概念辞書の内容の一例を示す図である。 キーワードの組合せと対応付けて記憶される注釈の一例を示す図である。 追記処理の後半部分の一例を示す図である。 補集合に対するキーワード検索処理を説明するための図である。 変形例に係る注釈の一例を示す図である。 変形例に係る概念辞書の内容の一例を示す図である。
以下、本発明の実施形態について、図面を用いて説明する。なお、以下の実施形態は例
示であり、本発明は下記の構成には限定されない。
<機能構成>
図1は、本実施形態に係る注釈追記装置の一例を示す機能ブロック図である。注釈追記装置1は、コンピュータによって構成され、記憶部11と、キーワード読出部12と、文書読出部13と、注釈追記部14とを有する。
記憶部11は、本実施形態において処理の対象となる文書ファイル、文書ファイルから抽出するキーワードの組合せ及び抽出されたキーワードの組合せに対して追記する注釈の内容、その他中間的に生成されるデータや注釈を追記した後の文書ファイル等を記憶する。文書ファイルは、例えば、ワープロソフトにて用いられる規格やPDF(Portable Document Format)等の規格に基づいて作成された電子データである。なお、表計算ソフトやプレゼンテーションソフト、その他の文字列を含む様々な電子データを処理対象としてもよい。また、記憶部11に予め記憶され、ユーザがキーワード等を設定しておくファイルを「概念辞書」と呼ぶものとする。概念辞書には、各キーワードに対して同義語及び下位概念に当たる語をさらに登録しておき、検索キーワードを拡張するようにしてもよい。また、概念辞書においてキーワードには優先順位が定められ、注釈を追記する処理においては優先順位に基づいてキーワードの組合せを決定する。
キーワード読出部12は、記憶部11からキーワードの組合せを読み出す。本実施形態に係るキーワードには予め優先順位が定められており、キーワード読出部12は、優先順位に基づいて検索するキーワードの組合せを読み出すものとする。また、キーワードに対して同義語や上位概念、下位概念の関係にある語が定義されている場合、キーワード読出部12は、キーワードの同義語や下位概念に当たる語をさらに用いて、文書ファイルからキーワードの組合せを抽出するようにしてもよい。
文書読出部13は、例えばユーザの操作に基づいて処理の対象とする文書ファイルの指定を受け付け、当該文書ファイルを所定の箇所ごとに区切って読み出す。具体的には、文書読出部13は、文書ファイルに含まれる文字列を、一文ごと、段落ごと、ページごと等といった所定の単位で読み出す。
注釈追記部14は、文書読出部13が読み出した文書ファイルの箇所から、キーワード読出部12が読み出したキーワードの組合せを抽出し、キーワードの組合せが抽出された箇所に対して所定の注釈を追記する。注釈とは、主として文書ファイルの内容に対する補足や説明、解説等であるが、任意の文字列であってもよい。また、注釈は、文書ファイルの規格において提供される機能を利用して追記するようにしてもよいし、本文中に例えば文字サイズや文字色に差をつけた文字列として追記するようにしてもよい。
<装置構成>
図2は、コンピュータの一例を示す装置構成図である。注釈追記装置1は、例えば図2に示すようなコンピュータである。図2に示すコンピュータ1000は、CPU(Central Processing Unit)1001、主記憶装置1002、補助記憶装置(外部記憶装置)1
003、通信IF(Interface)1004、入出力IF(Interface)1005、ドライブ装置1006、通信バス1007を備えている。CPU1001は、プログラムを実行することにより本実施の形態に係る処理等を行う。主記憶装置1002は、CPU1001が読み出したプログラムやデータをキャッシュしたり、CPUの作業領域を確保したりする。主記憶装置は、具体的には、RAM(Random Access Memory)やROM(Read Only Memory)等である。補助記憶装置1003は、CPU1001により実行されるプログラムや、本実施の形態で用いる設定情報などを記憶する。補助記憶装置1003は、具体的には、HDD(Hard-disk Drive)やSSD(Solid State Drive)、eMMC(embedded
Multi-Media Card)、フラッシュメモリ等である。主記憶装置1002や補助記憶装置
1003は、記憶部11等として働く。通信IF1004は、他のコンピュータとの間でデータを送受信する。通信IF1004は、具体的には、有線又は無線のネットワークカード等である。入出力IF1005は、入出力装置と接続され、ユーザから入力を受け付けたり、ユーザへ情報を出力したりする。入出力装置は、具体的には、キーボード、マウス、ディスプレイ、タッチパネル等である。ドライブ装置1006は、磁気ディスク、光磁気ディスク、光ディスク等の記憶媒体に記録されたデータを読み出したり、記憶媒体にデータを書き込んだりする。そして、以上のような構成要素が、通信バス1007で接続されている。なお、これらの構成要素はそれぞれ複数設けられていてもよいし、一部の構成要素(例えば通信IF1004やドライブ装置1006)が設けられなくてもよい。また、入出力装置がコンピュータと一体に構成されていてもよい。また、ドライブ装置1006で読み取り可能な可搬性の記憶媒体や、フラッシュメモリのような可搬性の補助記憶装置1003、通信IF1004などを介して、本実施の形態で実行されるプログラムが提供されるようにしてもよい。そして、CPU1001がプログラムを実行することにより、上記のようなコンピュータを注釈追記装置1として働かせる。
<追記処理>
図3は、本実施形態に係る追記処理の一例を示す図である。本実施形態では、営業報告書に対し、ある案件が、営業活動の開始から受注又は失注に至るどのような進捗段階にあるのかを示すステータスを追記する。具体的には、優先順位に従って選択される第1のキーワードと第2のキーワードとの組合せを営業報告書から検索し、見つかった組合せに対応付けて予め定められている文言を追記する。
まず、注釈追記装置1のキーワード読出部12は、記憶部11から優先順位に基づいてキーワードの組合せを読み出す(S1)。本実施形態では、優先順位の定義された第1のキーワードと、同じく優先順位の定義された第2のキーワードが予め記憶部11に記憶されているものとする。
図4A及び図4Bは、本実施形態において予め記憶部11に記憶されている概念辞書の一例を模式的に示す図である。概念辞書には、例えば、優先順位の高い「契約」と優先順位の低い「提案」とを含む第1のキーワードと、優先順位の高い「失敗」と優先順位の低い「成功」とを含む第2のキーワードとが記憶されている。また、図4Aは、第1のキーワード及びその下位概念に相当する複数の語を示している。図4Bは、第2のキーワード及びその下位概念に相当する複数の語を示している。便宜上、図4Aに示すキーワードの集合を第1の集合と呼び、図4Bに示すキーワードの集合を第2の集合と呼ぶものとする。換言すれば、第1の集合は、上位概念及び下位概念を親子関係で示すツリー構造で表されたキーワード群を2つ含んでいる。具体的には、第1の集合は、「契約」を上位概念とし、「本契約」、「コントラクト」、「仮契約」等を下位概念とする第1のキーワード群と、「提案」を上位概念とし、「プレゼン」、「プロポーザル」、「オファー」等を下位概念とする第2のキーワード群とを含む。図4Aにおいては、上位概念に相当する第1のキーワードを二重山括弧で囲っている。図4Bにおいては、上位概念に相当する第2のキーワードを二重山括弧で囲っている。また、第1のキーワードに定義された優先順位と同様に、第2のキーワード群よりも第1のキーワード群の方が優先順位が高いものとする。同様に、第2のキーワード群は、「失敗」を上位概念とし、「着けず」、「至らない」、「ペンディング」、「難しい」、「無理」、「失注」等を下位概念とする第1のキーワード群と、「成功」を上位概念とし、「行う」、「結ぶ」、「達成」、「サクセス」、「実施」等を下位概念とする第2のキーワード群とを含む。また、第2の集合内においても、第1のキーワード群の方が、第2のキーワード群よりも優先順位が高いものとする。また、第1のキーワード(第1の集合)と第2のキーワード(第2の集合)との間にも優先順位が定義されており、例えば第1のキーワードの方が第2のキーワードよりも優先順位が
高いものとする。すなわち、第1のキーワードにおいて優先順位の低い「提案」と第2のキーワードにおいて優先順位の高い「失敗」との組合せよりも、第1のキーワードにおいて優先順位の高い「契約」と第2のキーワードにおいて優先順位の低い「成功」との組合せの方が優先されるものとする。なお、各キーワード群において、同一概念を示す語(「同義語」又は「類義語」とも呼ぶ)がさらに定義されていてもよい。図4A及び図4Bに示すような辞書は、例えばツリー構造のようなグラフを表現できる様々なデータ構造により記憶部11に格納されるものとする。
S1においては、優先順位の高いキーワードの組合せとして、「契約」及び「失敗」が読み出される。
次に、キーワード読出部12は、記憶部11に記憶されている概念辞書を参照し、S1で読み出されたキーワードの同義語及び下位概念に当たる語を読み出す(S2)。
S2においては、S1で読み出された第1のキーワードの下位概念に当たる「本契約」、「コントラクト」、「仮契約」等と、第2のキーワードの下位概念に当たる「着けず」、「至らない」、「ペンディング」、「難しい」、「無理」、「失注」等が読み出される。
なお、記憶部11には、第1のキーワードと第2のキーワードとの組み合わせに対して、文書ファイルに追記するための注釈も記憶されている。図5は、キーワードの組合せと対応付けて記憶されている注釈の一例を示す図である。キーワードの組合せは、注釈を付す条件を表している。なお、図5においても、図4A及び図4Bと同様に第1のキーワード及び第2のキーワードを二重山括弧で囲っている。すなわち、図5においてツリー構造で示したキーワードの一部は、図4A及び図4Bの概念辞書に登録された上位概念及び下位概念の関係にあるキーワード群に対応している。例えば、「契約」を含むキーワード群と「失敗」を含むキーワード群との組み合わせに対応づけて、「失注状況」という注釈(1)が記憶されている。また、「契約」を含むキーワード群と「成功」を含むキーワード群との組み合わせに対応付けて、「契約状況」という注釈(2)が記憶されている。なお、注釈(2)は、文書中において注釈(1)が追記されなかった部分に対して追記される。また、「提案」を含むキーワード群と「失敗」を含むキーワード群との組み合わせに対応付けて、「再提案状況」という注釈(3)が記憶されている。なお、注釈(3)は、文書中において注釈(1)及び(2)のいずれも追記されなかった部分に対して追記される。また、「提案」を含むキーワード群と「成功」を含むキーワード群との組み合わせに対応付けて、「提案状況」という注釈(4)が記憶されている。なお、注釈(4)は、文書中において注釈(1)〜(3)のいずれも追記されなかった部分に対して追記される。そして、本実施形態では、注釈(1)〜(4)のいずれも追記されなかった部分に対して追記される注釈(5)として、「開発状況」が記憶されているものとする。なお、図5に示す優先順位は、第1のキーワード内において定義された優先順位、第2のキーワード内において定義された優先順位、及び第1のキーワードと第2のキーワードとの間に定義された優先順位に応じて適用される、条件判断の順序を示している。また、図5に概念的に例示した注釈及びこれを付す条件は、記憶部11において、任意の形式のデータベースやファイル等に記憶させることができる。また、二重山括弧で囲われた第1のキーワード及び第2のキーワードにそれぞれぶら下がるキーワード群は、概念辞書を参照することで補完される情報である。
その後、注釈追記装置1の文書読出部13は、記憶部11に記憶されている文書ファイルを読み出す(S3)。本ステップでは、文書ファイルに含まれる文字列を、一文ごと、段落ごと、ページごと等といった所定の単位(「部分」とも呼ぶ)に区切って読み出す。例えば、以下のような段落1〜4を含む営業報告書が、段落ごとに読み出されたものとす
る。
段落1「・・・○○様に、併設するホテル△△の駐車場の運営を外部委託したい旨のお話を頂く。次回以降にプレゼンを実施・・・」
段落2「・・・○○様にホテルの駐車場の活用事例をプレゼン。上司に相談してみる旨を言われた・・・」
段落3「・・・提案は成功。契約を年明けに行う。・・・」
段落4「・・・駐車場として使用予定の土地が遊休地となっている・・・」
そして、注釈追記装置1の注釈追記部14は、読み出した部分ごとに、キーワードの組合せが存在するか判断する(S4)。本ステップでは、S1で読み出した第1のキーワード並びにS2で読み出した第1のキーワードの同義語及び下位概念に当たる語のいずれかと、S1で読み出した第2のキーワード並びにS2で読み出した第2のキーワードの同義語及び下位概念に当たる語のいずれかとの組合せが、S3で読み出した各段落に存在するか判断する。上述の例では、「契約」及びその下位概念と、「失敗」及びその下位概念との組合せが読み出されているが、S4では段落1〜4の各々において当該キーワードの組合せは抽出されない。
キーワードの組合せが存在すると判断された場合(S4:YES)、注釈追記部14は、キーワードの組合せに対応付けて記憶部11に記憶されている注釈を、読み出した部分ごとに追記する(S5)。仮に上述した段落のいずれかにキーワードの組合せが見つかった場合、キーワードの組合せを含む段落に「失注状況」という図5の注釈(1)が追記される。なお、注釈は、例えばワープロソフト等が提供するコメントの挿入機能等によって追記するようにしてもよいし、文書ファイルの本文中に、本文とは文字サイズや文字色、背景色等に差をつけた文字列として追記するようにしてもよい。
S4においてキーワードの組合せが存在しないと判断された場合(S4:NO)、又はS5の後、端子Aを介して図6の処理に遷移する。図6は、本実施形態に係る追記処理の後半部分を示す図である。
キーワード読出部12は、記憶部11に記憶されているキーワードの組合せにおいて、優先順位が下位の組合せが存在するか判断する(S6)。本ステップでは、キーワード読出部12は、S1又は後述するS7においてすでに抽出されたキーワードの組合せよりも優先度の低いキーワードの組合せが存在するか判断する。上述の例では、優先度の高い順に、「契約」及び「成功」の組合せ、「提案」及び「失敗」の組合せ、「提案」及び「成功」の組合せが存在するため、S6においては優先順位が下位の組合せが存在すると判断される。
優先順位が下位の組合せが存在すると判断された場合(S6:YES)、キーワード読出部12は、優先順位が次に高いキーワードの組合せを記憶部11から読み出す(S7)。上述の例では、「契約」及び「成功」の組合せが読み出される。
そして、キーワード読出部12は、記憶部11に記憶されている概念辞書を参照し、S1で読み出されたキーワードの同義語及び下位概念に当たる語を読み出す(S8)。本ステップの処理は、S2と同様である。上述の例では、「契約」及び「成功」のそれぞれについて、同義語及び下位概念に当たる語が読み出される。なお、S2において、第1のキーワードの各々及び第2のキーワードの各々について同義語及び下位概念に当たる語を予めメモリ上に展開しておき、S8の処理を省略するようにしてもよい。
その後、注釈追記部14は、S3において読み出した文書ファイルの部分(例えば段落)のうち、優先順位が上位のキーワードの組合せを含まない部分の中に、S7で読み出し
た第1のキーワード並びにS8で読み出した第1のキーワードの同義語及び下位概念に当たる語のいずれかと、S7で読み出した第2のキーワード並びにS8で読み出した第2のキーワードの同義語及び下位概念に当たる語のいずれかとの組合せが存在するか判断する(S9)。本ステップの判断は、S4と概ね同様であるが、優先順位が上位のキーワードの組合せが存在するとすでに判断された部分(換言すれば、すでに注釈が追記された部分)については本ステップにおいてキーワードの組合せが存在するか判断しない。
図7は、文書ファイルの部分のうち、S9においてキーワードの組合せが存在するか判断する対象を説明するための図である。図7において、角丸長方形は、文書ファイルに含まれる部分(例えば段落)全体の集合を表す。また、円は、内部に記載された各語句を含む部分の集合を表す。図3のS4においては、優先順位が最も高い「契約」及び「失敗」のキーワードの組合せを含む部分(図7の細線のハッチングを付した集合)が存在するか判断し、S5において注釈を追記した。図6のS9においては、図7において細線のハッチングが付された集合の補集合を対象として、優先順位が2番目に高い「契約」及び「成功」のキーワードの組合せを含む部分(図7の太線のハッチングを付した集合)が存在するか判断する。上述の例では、段落3に「契約」並びに「成功」及び「行う」(「成功」の下位概念)の組合せが存在すると判断される。
キーワードの組合せが存在すると判断された場合(S9:YES)、注釈追記部14は、キーワードの組合せに対応付けて記憶部11に記憶されている注釈を、読み出した部分ごとに追記する(S10)。本ステップの処理は、図3のS5と同様である。上述の例では、段落3に「契約状況」という図5の注釈(2)が追記される。
S9においてキーワードの組合せが存在しないと判断された場合(S9:NO)、又はS10の後、S6の処理に戻る。そして、優先順位が下位のキーワードの組合せが存在しなくなるまで、S6〜S10の処理を繰り返す。上述の例では、「提案」及び「失敗」の組合せ、「提案」及び「成功」の組合せが存在するか、順に文書ファイルを検索する。そして、段落1に「プレゼン」(「提案」の下位概念)及び「実施」(「成功」の下位概念)の組合せが存在するため、段落1に「提案状況」という図5の注釈(4)が追記される。なお、段落3には「提案」並びに「成功」及び「行う」の組合せも存在するが、優先順位がより上位の「契約」並びに「成功」及び「行う」の組合せが存在するため、「提案状況」という注釈は追記されない。
また、S6において優先順位が下位のキーワードの組合せが存在しないと判断された場合(S6:NO)、注釈追記部14は、文書ファイルのうちキーワードの組合せが存在しない部分に注釈を追記するか判断する(S11)。本ステップでは、記憶部11に予め記憶された条件に基づき、キーワードの組合せが存在しないと判断された部分に追記すべき注釈が設定されているか判断する。上述の例では、キーワード並びにその同義語及び下位概念に当たる語のいずれも存在しない段落に対し、「開発状況」という図5の注釈(5)を追記すると判断される。
キーワードの組合せが存在しない部分に対して注釈を追記すると判断された場合(S11:YES)、記憶部11に予め記憶されている注釈を、文書ファイルの該当する部分に追記する(S12)。上述の例では、段落4にいずれのキーワードも見つからないため、「開発状況」という注釈が追記される。また、S11においてキーワードの組合せが存在しない部分に対して注釈を追記しないと判断された場合(S11:NO)、又はS12の後、追記処理を終了する。
本実施形態に係る追記処理では、進捗の段階を示す語句と、その結果を示す語句との組み合わせを検索することにより、適切な注釈を追記することができる。すなわち、文書に
追記する文言の妥当性を簡易な方法で向上させることができる。また、キーワードの同義語や上位概念・下位概念を検索対象とすることで、自由に作成された文章中からキーワードの抽出が漏れるのを抑制できる。すなわち、文書に追記する文言の妥当性を、キーワードの優先順位を伴う組合せという簡易な方法で向上させることができる。
また、本実施形態では語句の概念的な上下関係又は同義関係を例えばツリー構造の辞書で定義することができる。このような定義に基づいて、注釈を付す条件として設定されたキーワードについて同義語及び下位概念に当たる語を漏れなく抽出し、優先順位の定義されたキーワードの組合せのバリエーションとして展開することができる。仮にこのようなバリエーションを個別に設定する場合、手間がかかると共にミスが起こる可能性も高くなる。本実施形態に係る辞書は、注釈を付す条件とは独立して、ユーザにとって理解し易い形式で定義することができるため、ユーザは簡便な方法で必要な設定を行うことができる。
<変形例>
次に、本実施形態に係る追記処理の他の例を説明する。本変形例では、例えば建設工事の施工計画書に対して、例えば労働基準監督署等への届出が必要な事項に関する注釈や、クレーンの運転に必要な免許に関する注釈を追記するものとする。本変形例でも、図3及び図6に示したフローに従って処理を行うが、上述の実施形態とはキーワードの数や登録される語句の性質が異なっている。
本変形例では、記憶部11に、図8に示すような注釈が予め記憶されているものとする。図8に例示する注釈は、クレーン等安全規則において規定されている、クレーンの設置や撤去の届出に関する注釈や、クレーンの運転に必要な免許に関する注釈を追記するための情報である。図5の例と同様に、優先順位は各注釈を追記するか判断する順序を示す。また、本変形例では、3つのキーワードの組合せに基づいて判断を行う。
例えば、記憶部11には、第1のキーワードとして、文中において行為の対象を表す目的語として出現することが期待される語句が登録される。具体的には、設置や撤去といった作業(行為)の対象となる装置(クレーン)の名称が登録される。また、第2のキーワードとして、設置や撤去といった作業の内容を示す語句が登録される。換言すれば、術語として出現することが期待される語句が登録される。また、第3のキーワードとして、数値の範囲を示す情報が登録される。具体的には、上述した作業の対象となる装置の規模を示す数値の範囲が登録される。なお、数値の範囲は、上限及び下限の少なくともいずれかが定義されるものとする。例えば労働基準監督署等への届出が必要な事項に関する注釈や、クレーンの運転に必要な免許に関する注釈を追記する場合、扱う装置や設備の規模によって届出の要否や必要な免許が異なることがある。本実施形態では、所定の優先順に従って文中からキーワードの有無を判断するだけでなく、文中に含まれる数値が所定の範囲に属するか否かを判断することで、扱う装置や設備の規模によって届出の要否や必要な免許が異なるような場合にも適切な注釈を追記することができる。なお、第1〜第3のキーワードの各々には、必ずしも同じ性質の語句や数値範囲が登録されていなくてもよい。
また、図9は、変形例に係る概念辞書の一例を示す図である。図9に示すように、概念辞書に登録される語句は、上位概念、中位概念及び下位概念の3段階以上で表されていてもよい。このような場合、各キーワードよりも下位の概念に相当する語句をすべて用いて検索を行うようにする。
3つのキーワードが設定されている場合、図3のS4や図6のS9では、図3のS3で読み出した文書の各部分において3つのキーワードの組合せが見つかるか判断する。また、キーワードに数値範囲が設定されている場合、図3のS4や図6のS9では、図3のS
3で読み出した文書の各部分から抽出された数値がキーワードに設定されている数値範囲に属するか否か判断する。
本変形例に係る追記処理では、後の工程で用いられる装置等や、注釈を必要とする重要な装置等、届出を忘れがちな作業を優先すると共に、装置等の大きさと数値範囲を示す基準値(境界値)との大小関係を判断することにより、適切な注釈を追記することができる。すなわち、文書に追記する文言の妥当性を簡易な方法で向上させることができる。
<その他>
注釈追記処理は、営業報告書や、建設の施工計画書以外に適用することもできる。実施形態及び変形例に示すように、文書の性質に応じて出現が期待されるキーワードを予め設定しておき、優先順位づけされたキーワードの組み合わせに基づいて簡易的に文書の内容を判断すれば、その内容に応じて適切な文言を追記できるようになる。
また、キーワードの数や、キーワードの内容はどのように組み合わせてもよい。例えばクレーンの種別のように何らかの対象物を表すキーワード、及びその規模を表す数値範囲という2種類のキーワードの組み合わせに基づいて注釈を追記するようにしてもよい。また、4種類以上のキーワードの組み合わせに基づいて注釈を追記するようにしてもよい。また、同一概念や下位概念に当たる語句に検索キーワードを必ずしも拡張しなくてもよい。
また、追記する文言についても実施形態や変形例で例示したものには限定されない。例えば、営業報告書や施工計画書に対して、他の情報を追記するようにしてもよい。具体的には、施工計画書において、工事現場の所番地に基づき、届け出先や報告先である自治体の情報を追記したり、地域によって定められている水質基準を満たすため所定の測定機器を導入する旨の注釈を追記するようにしてもよい。
また、上述の実施形態及び変形例では、文書ファイルの段落ごとにキーワードの検索を行っているが、検索を行う単位は段落ごとには限られない。例えば、一文単位やページ単位等で、その中にキーワードの組み合わせが含まれているか判断するようにしてもよい。このようにすれば、文書の形式に応じて、適切な単位で注釈を追記することができるようになる。
また、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において変更することができる。また、上記の実施形態及び変形例は、可能な限り組み合わせて実施することができる。
例えば、注釈追記装置1は、インターネット等のネットワークを介して接続される1又は複数のサーバによって構成される態様であってもよい。この場合、注釈追記装置1は、ユーザが操作するコンピュータに格納されている文書ファイルを、ネットワークを介して読み出し、実施形態又は変形例に係る処理を行う。
また、実施の形態に示した処理フローは、結果が変わらない限りにおいて処理の順序を変更してもよい。記憶部11に保持されるデータのデータ構造は特に限定されない。
また、本発明は、上述した処理を実行するコンピュータプログラムや、当該プログラムを記録した、コンピュータ読み取り可能な記録媒体を含む。当該プログラムが記録された記録媒体は、プログラムをコンピュータに実行させることにより、上述の処理が可能となる。
ここで、コンピュータ読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータから取り外し可能なものとしては、フレキシブルディスク、光磁気ディスク、光ディスク、磁気テープ、メモリカード等がある。また、コンピュータに固定された記録媒体としては、ハードディスクドライブやROM等がある。
1 :注釈追記装置
11:記憶部
12:キーワード読出部
13:文書読出部
14:注釈追記部

Claims (8)

  1. 文書ファイルを読み出し、内容に文言を追記する装置であって、
    第1のキーワード及び第2のキーワードの組み合わせに対応付けて、追記する文言及び当該組み合わせを適用する優先順位を記憶する記憶部と、
    前記文書ファイルが、前記第1のキーワード及び第2のキーワードを含む場合、前記記憶部において当該第1のキーワード及び第2のキーワードの組み合わせに対応付けられている文言を追記する文言追記部と、
    を有し、
    前記文言追記部は、前記優先順位に従って前記組み合わせに含まれるキーワードが前記文書ファイルに存在するか判断し、存在する場合、見つかった組み合わせに対応付けて前記記憶部に記憶されている文言を追記する
    文言追記装置。
  2. 前記記憶部は、前記第1のキーワード又は前記第2のキーワードと上位概念、下位概念、又は同一概念の関係にある単語を対応付けてさらに記憶し、
    前記文言追記部は、前記第1のキーワード及び第2のキーワードの各々について、上位概念、下位概念、又は同一概念の関係にある単語に置き換えた組み合わせが存在する場合、前記記憶部において当該第1のキーワード及び第2のキーワードの組み合わせに対応付けられている文言を追記する
    請求項1に記載の文言追記装置。
  3. 前記第1のキーワード又は前記第2のキーワードは、上限及び下限の少なくともいずれかが定められた数値の範囲によって定義され、
    前記文言追記部は、前記数値の範囲によって定義されたキーワードについて、当該範囲に含まれる数値が前記文書ファイルに存在するか判断する
    請求項1又は2に記載の文言追記装置。
  4. 前記第1のキーワードは、行為の対象として前記文書ファイル中に出現が期待される語句であり、前記第2のキーワードは、前記行為として出現が期待される語句である
    請求項1から3のいずれか一項に記載の文言追記装置。
  5. 前記文言追記部は、前記文書ファイルの内容である文章に対し、文、段落又はページごとに前記組み合わせに含まれるキーワードが存在するか判断し、当該組み合わせに含まれるキーワードが存在すると判断された文、段落又はページに対し、前記文言を追記する
    請求項1から4のいずれか一項に記載の文言追記装置。
  6. 前記記憶部に記憶される前記組み合わせは、第3のキーワードをさらに含む
    請求項1から5のいずれか一項に記載の文言追記装置。
  7. 文書ファイルを読み出し、内容に文言を追記する方法であって、
    記憶装置に記憶されている第1のキーワード及び第2のキーワードを、前記文書ファイルにおいて検索する検索ステップと、
    前記文書ファイルが前記第1のキーワード及び第2のキーワードを含む場合、当該第1のキーワード及び第2のキーワードの組み合わせに対応付けられて前記記憶装置に記憶されている文言を追記する文言追記ステップと
    をコンピュータが実行し、
    前記記憶装置は、前記組み合わせに対応付けて当該組み合わせを適用する優先順位を記憶し、
    前記検索ステップは、前記優先順位に従って前記組み合わせに含まれるキーワードが前
    記文書ファイルに存在するか判断する
    文言追記方法。
  8. コンピュータに、文書ファイルを読み出させ、内容に文言を追記させるプログラムであって、
    記憶装置に記憶されている第1のキーワード及び第2のキーワードを、前記文書ファイルにおいて検索する検索ステップと、
    前記文書ファイルが前記第1のキーワード及び第2のキーワードを含む場合、当該第1のキーワード及び第2のキーワードの組み合わせに対応付けられて前記記憶装置に記憶されている文言を追記する文言追記ステップと
    をコンピュータに実行させ、
    前記記憶装置は、前記組み合わせに対応付けて当該組み合わせを適用する優先順位を記憶し、
    前記検索ステップは、前記優先順位に従って前記組み合わせに含まれるキーワードが前記文書ファイルに存在するか判断する
    文言追記プログラム。
JP2016073871A 2016-04-01 2016-04-01 文言追記装置、文言追記方法及び文言追記プログラム Active JP6790328B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016073871A JP6790328B2 (ja) 2016-04-01 2016-04-01 文言追記装置、文言追記方法及び文言追記プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016073871A JP6790328B2 (ja) 2016-04-01 2016-04-01 文言追記装置、文言追記方法及び文言追記プログラム

Publications (2)

Publication Number Publication Date
JP2017187823A true JP2017187823A (ja) 2017-10-12
JP6790328B2 JP6790328B2 (ja) 2020-11-25

Family

ID=60044273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016073871A Active JP6790328B2 (ja) 2016-04-01 2016-04-01 文言追記装置、文言追記方法及び文言追記プログラム

Country Status (1)

Country Link
JP (1) JP6790328B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083823A (zh) * 2019-03-07 2019-08-02 平安科技(深圳)有限公司 词典表建立方法及装置、计算机装置、及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083823A (zh) * 2019-03-07 2019-08-02 平安科技(深圳)有限公司 词典表建立方法及装置、计算机装置、及存储介质
CN110083823B (zh) * 2019-03-07 2024-03-29 平安科技(深圳)有限公司 词典表建立方法及装置、计算机装置、及存储介质

Also Published As

Publication number Publication date
JP6790328B2 (ja) 2020-11-25

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
US11526481B2 (en) Incremental dynamic document index generation
US9639522B2 (en) Methods and apparatus related to determining edit rules for rewriting phrases
US11354501B2 (en) Definition retrieval and display
US20100325539A1 (en) Web based spell check
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
JP2010538375A5 (ja)
US20210334309A1 (en) Classification device, classification method, generation method, classification program, and generation program
US9256585B2 (en) Non-transitory computer readable medium storing document creation support program, document creation support device, and document creation support method
WO2014064803A1 (ja) 文書処理プログラム、文書処理装置、文書処理システム、文書処理方法
JP2013246644A (ja) ソフトウェアオブジェクト修正支援装置、ソフトウェアオブジェクト修正支援方法、および、プログラム
US20140244676A1 (en) Discovering Title Information for Structured Data in a Document
JP2017187823A (ja) 文言追記装置、文言追記方法及び文言追記プログラム
US20140229816A1 (en) Methods and devices for tagging a document
JP5706306B2 (ja) リンクされたテキストボックスを有する電子文書のレンダリングの方法、レンダリングする指示を含むコンピューターが読み取り可能な記憶媒体及びシステム
JP6536580B2 (ja) 文集合抽出システム、方法およびプログラム
US11605006B2 (en) Deep-learning model catalog creation
CN112417819A (zh) 一种Word文档信息提取方法、装置、电子设备及介质
JP2011154495A (ja) 文字コード変換装置、文字コード変換方法、および文字コード変換プログラム
CN112559735A (zh) 信息处理装置以及记录媒体
JP5295576B2 (ja) 自然言語解析装置、自然言語解析方法および自然言語解析プログラム
JP6753190B2 (ja) 文書検索装置及びプログラム
US7865489B2 (en) System and computer program product for discovering design documents
JP5324500B2 (ja) ファイル共有装置
CN113704397B (zh) 检索方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201013

R150 Certificate of patent or registration of utility model

Ref document number: 6790328

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150