JP2016009415A - 用語集作成支援システムおよび方法、プログラム - Google Patents

用語集作成支援システムおよび方法、プログラム Download PDF

Info

Publication number
JP2016009415A
JP2016009415A JP2014130935A JP2014130935A JP2016009415A JP 2016009415 A JP2016009415 A JP 2016009415A JP 2014130935 A JP2014130935 A JP 2014130935A JP 2014130935 A JP2014130935 A JP 2014130935A JP 2016009415 A JP2016009415 A JP 2016009415A
Authority
JP
Japan
Prior art keywords
word
term
document
risk
glossary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014130935A
Other languages
English (en)
Other versions
JP6357912B2 (ja
Inventor
英司 平尾
Eiji Hirao
英司 平尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014130935A priority Critical patent/JP6357912B2/ja
Publication of JP2016009415A publication Critical patent/JP2016009415A/ja
Application granted granted Critical
Publication of JP6357912B2 publication Critical patent/JP6357912B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 固有の用語を持つ文書に対して、文書中の用語集に登録されていない全複合語について、用語集に登録すべき用語を抽出して用語集作成を支援する。
【解決手段】 文書の入力を受け付ける文書入力部と、各文章に使用されている単語の単語情報を抽出する文書解析部と、文書解析部で抽出された単語情報を用い、名詞または辞書に登録されていない未知語が付属語を挟まずに直接隣接している文字列部分に関して、隣接する名詞または未知語を結合した単語を複合語として推測する複合語推測部と、複合語推測部で推測された各複合語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、リスクの有無を推定する用語リスク推定部と、所定の用語判定ルールによって、用語集に登録すべき用語を判定する用語判定部と、用語判定部で判定した用語集に登録すべき用語について出力する出力部とを有している。
【選択図】 図1

Description

本発明は、用語集作成支援システムおよび方法、プログラムに関し、自然言語で書かれた仕様書などの、文書に固有の用語を持つ文書から、文書に固有の用語を抽出し、用語集作成を支援する用語集作成支援システム、方法およびプログラムに関する。
近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の用語集を作成する用語集作成支援システムが開発されている。その用語集作成支援システムに関する技術の一例が、特許文献1に「用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体」として開示されている。この特許文献1に開示された用語抽出装置は、文書入力部と、形態素解析部と、用語抽出部と、表記と品詞を記述した単語辞書と、品詞間の接続の可否を記述した接続表及び用語パターンルールを記述した抽出パターンルール格納部を有する。
このような構成を有する誤字脱字対応テキスト解析装置は、次のように動作する。すなわち、文書入力部は文書を入力として受け付ける。形態素解析部は入力した文書を、単語辞書に記述してある表記と品詞と、接続表に記述してある品詞間の接続の可否とを参照して形態素解析を行う。用語抽出部は形態素解析部で形態素解析された文書中の単語の全てについて、形態素解析では誤り結果として頻出するパターンを登録した抽出パターンルール格納部に記述された用語パターンルールを参照し、パターンルールと一致した特定の単語の並びを抽出し、同一対象文書あるいは同一対象文書集合中で同じ単語の並びが特定数以上出現したものを用語として抽出する。
このような構成により、形態素解析では誤り結果として頻出する単語の並びを用語の候補とすることで、専門的な分野や特定の組織内でのみ使われる略称のように辞書に未登録の場合が多く、正しく解析できない用語を正確に抽出することを可能にしている。
さらに、用語集作成支援システムに関する技術の他の例が、特許文献2に「用語集生成装置及び用語集生成プログラム並びに用語集検索装置」として開示されている。この用語集生成装置は、係り受け解析手段と、用語データ抽出手段と、概念データ抽出手段と、予め連体修飾節が用語を定義する説明文となるときの特徴となる学習データを登録した学習データベースと、修飾データ抽出手段と、解説データ生成手段とを有している。
このような構成を有する用語集生成装置は、次のように動作する。すなわち、用語データ抽出手段が、テキストデータを形態素解析及び構文解析を行なうことで、前記テキストデータの文節の係り受け情報を生成する。用語データ抽出手段は、前記テキストデータから、名詞または名詞句となる文字列を解析し、用語データとして抽出する。次に、概念データ抽出手段が、前記係り受け情報と、用語データを言い換える特定の言い換え表現とに基づいて、前記テキストデータから、前記用語データの上位概念を示す概念データを抽出する。修飾データ抽出手段は、前記係り受け情報と前記学習データとに基づいて、前記用語データに係る連体修飾節が前記用語データの定義となっているかを判断し、定義と判断された連体修飾節を修飾データとして抽出する。解説データ生成手段が、前記修飾データに前記概念データを連結することで、前記用語データを定義する解説データを生成する。
このような構成により、自然言語のテキストデータから、連体修飾節に基づいて、用語及びその用語を定義する解説データを抽出することができるようにしている。
特開2002−342321号公報 特許第4014130号公報
特許文献1に記載の開示技術の課題は、自然言語で書かれた仕様書などの文書に固有の用語を持つ文書から、文書に固有の用語を抽出し用語集作成を支援することに、上記技術による分析方法を適用しても、異なる解釈の起きるリスクが大きく、用語集に登録すべき用語候補を抽出することができないことである。仕様書など文書に固有の用語を持つ文書に用いられる用語には、例えば「購買リスト」といった複合語が多い。それが、「購買先」の「リスト」なのか、「購買品」の「リスト」なのか、「購買時期」や「購買額」を含むのかといった複数の解釈の可能性があるにもかかわらず、「購買した(ものに関する)リスト」のように、思い込みで解釈できてしまうことがある。このような用語が、異なる解釈の起きるリスクが大きく、用語集に登録すべき用語である。しかしながら、特許文献1の手法で用いられている形態素解析では、誤り結果として頻出するパターンを利用する用語の抽出方法においては、明らかに一般には用いられておらず、思い込みでは解釈しにくい省略語が抽出されるだけである。これが、特許文献1に記載の開示技術では、異なる解釈の起きるリスクが大きく、用語集に登録すべき用語を検出できない理由である。
また、特許文献2に記載の開示技術の課題は、自然言語で書かれた仕様書などの文書に固有の用語を持つ文書から、文書に固有の用語を抽出し、用語集作成を支援することに、上記技術による分析方法を適用しても、異なる解釈の起きるリスクが大きく、用語集に登録すべき用語候補に絞り込んだ用語の抽出をすることができないことである。仕様書などにおける文書に固有の用語に多い複合語には、「入力データ」のように、単に「入力するデータ」という内容に関わらない情報を簡略化しただけの表現が多く含まれ、一方で用語として登録すべき語も、なんら定義を解説することなく使われていることが多い。特許文献2の手法で用いられている、単に名詞または名詞句となる文字列を解析し、連体修飾節に基づいて用語を抽出する方法では、上記の、内容に関わらない情報を簡略化しただけの表現を用語の候補としてしまうことがある。さらに、連体修飾節を用いて用語の意味を解説した文章が存在しない語は検出できず、異なる解釈の起きるリスクが大きく、用語集に登録すべき用語に絞り込んだ検出ができないことになる。
すなわち、本発明の目的は、上記課題に鑑み、自然言語で書かれた仕様書などの文書に固有の用語を持つ文書に対して、文書中の用語集に登録されていない全複合語について、複合語の構成語が入力文書内で使用された文の書かれ方に基づきリスクを推定することで、異なる解釈の起きるリスクが大きく、用語集に登録すべき用語に絞り込んだ用語の抽出を行い、用語集作成を支援する用語集作成支援システムおよび方法、プログラムを提供することにある。
本発明では、上記課題を解決するために、文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付ける文書入力部と、文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行う文書解析部と、文書解析部で抽出された単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測する複合語推測部と、複合語推測部で推測された各複合語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、複合語が異なる解釈を引き起こすリスクの有無を推定する用語リスク推定部と、用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、用語集に登録すべき用語を判定する用語判定部と、用語判定部で判定した、用語集に登録すべき用語について、用語集への登録を促すために、用語を出力する出力部とを有することを特徴としている。
また、本発明では、上記課題を解決するために、文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付ける文書入力部と、文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行う文書解析部と、文書解析部で抽出された単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測する複合語推測部と、文書群において、固有の定義があり、その定義を関係者に共有する必要がある用語を収集して蓄積し、任意の文字列が用語に該当するかどうかに関する問い合わせに対し、問い合わせ対象の文字列が用語に含まれるか検索し、応答する用語データベースと、複合語推測部で推定した前記複合語について、各複合語の文字列が用語として登録されているかどうかを前記用語データベースに問合せ、用語として登録されていない未登録語を検出する未登録語抽出部と、未登録語抽出部で検出した各未登録語に関して、文書解析部で抽出した入力文書中の単語情報を利用して、未登録語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、未登録語が異なる解釈を引き起こすリスクの有無を推定する用語リスク推定部と、用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、用語集に登録すべき用語を判定する用語判定部と、
用語判定部で判定した、用語集に登録すべき用語について、用語集への登録を促すために、用語を出力する出力部とを有することを特徴としている。
本発明によれば、自然言語で書かれた仕様書などの文書に固有の用語を持つ文書から、用語集に登録すべき語を自動的に抽出し提示することができるようになり、用語集の作成・メンテナンスの負荷を低減可能な、用語集作成支援システム、方法およびプログラムを提供できる。
本発明の実施形態に係る用語集作成支援システムの構成を示すブロック図である。 本発明の実施形態に係る用語集作成支援システムの動作例を示すシーケンス図である。 本発明の実施形態に係る用語集作成支援システムの全体の構成を示すブロック図である。
以下、本発明の実施形態について図面を参照して詳細に説明する。
(実施形態)
図1を用いて、本発明の実施形態における用語集作成支援システムの構成を説明する。
図1は、本発明の実施形態に係る用語集作成支援システムの構成を示すブロック図である。
図1において、本実施形態に係る用語集作成支援システム100は、基本的に電子機器内またはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部10、文書解析部20、複合語推測部30、未登録語抽出部40、用語リスク推定部50、用語判定部60、出力部70、用語データベース110を有している。
用語集作成支援システム100は、自然言語で書かれた仕様書などの文書に固有の用語を持つ文書に対して、文書内で使用された単語の書かれ方に基づきリスクを推定することで、用語集に登録すべき語を自動的に抽出し、提示する、文書分析システムである。
電子機器で用語集作成支援システムを構成する場合、用語集作成支援システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
この場合、データ処理装置が文書入力部10、文書解析部20、複合語推測部30、未登録語抽出部40、用語リスク推定部50、用語判定部60として動作し、補助記憶装置が用語データベース110として動作し、出力装置が出力部70として動作する。
次に、用語集作成支援システム100を構成する各構成要素の動作について説明する。
文書入力部10は、文書に固有の用語を含む可能性が有り、用語集への登録が必要な用語を分析したい文書または文書群の入力を受け付ける。
文書解析部20は、文書または文書群を構成する各文章に形態素解析を適用することで、各文章に使用されている全単語の単語情報の抽出を行う。ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に加え、助詞などの付属語も個別の単語とみなす。さらに、同一の文字列からなる単語であっても出現箇所が異なれば、それぞれについて単語情報の抽出を行う。さらに、上記単語情報は、少なくとも使用されている単語の文字列と、単語の文書内での存在位置などの情報を含んでいる。単語の文書内での存在位置に関する情報とは、使用箇所が同定可能な情報であればよく、単語の存在する文の出現順位や頁、目次上の章や節、項などが該当する。
複合語推測部30は、文書解析部20で抽出された全単語の単語情報を用いて、名詞または辞書に登録されていない未知語が助詞などを挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を全て結合した文字列を複合語として推測する。
用語データベース110は、文書群において、固有の定義があり、その定義を文書群の関係者に共有する必要がある定義済みの用語を収集して蓄積し、任意の文字列が用語に該当するかどうかに関する問い合わせに対し、問い合わせ対象の文字列が用語に含まれるか検索し、応答するデータベースである。
未登録語抽出部40は、複合語推測部30で推定した複合語について、各複合語の文字列が用語として登録されているかどうかを用語データベース110に問合せ、用語として登録されていない未登録語を検出する。
用語リスク推定部50は、未登録語抽出部40で検出した各未登録語に関して、文書解析部20で抽出した入力文書中の全単語の単語情報を利用して、未登録語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、未登録語が異なる解釈を引き起こすリスクの有無を推定する。なお、未登録語抽出部40を省略し、複合語推測部30で推定した各複合語を前記未登録語とみなして、異なる解釈を引き起こすリスクの有無を推定してもよい。
ここで、所定のリスク推定ルールとは、文書の記載者の単語に対する想定が反映される記載パターンとの一致状況で、リスクの有無を推定するルールであればよい。例えば、未登録語を構成する複数の構成語間が、省略しても単語の解釈に影響しない表現で結合された記載パターンの文がある場合は、リスクが無いと推定するルールなどが考えられる。すなわち、このルールとは、省略しても単語の解釈に影響しない表現で構成語間を結合した記載パターンの文があるということは、文書の記載者が付帯情報を付加せずにそれらの構成語を単純に結合しても読み手は理解可能と考えている可能性が高い、という推定に基づいている。この方法では、同一の複合語または未登録語に関して、省略しても単語の解釈に影響しない表現で構成語間を結合した記載パターンの文の種類数が多いほどリスクが低いとするリスク指標で、相対的なリスクを定量的に推定するルールなども考えられる。
他に、未登録語を構成する複数の構成語が共起する文で、2つの構成語の間に自立語が含まれ、その自立語がその複合語または未登録語を構成する構成語ではない、という記載パターンの文がある場合は、単語の解釈に影響のある情報が未登録語の構成語だけでは想定できない状態となっている可能性が高く、リスクが有ると推定するルールなどが考えられる。すなわち、このルールは、2つの構成語の間に、その複合語に含まれる構成語以外の自立語が含まれる記載パターンの文があるということは、文書の記載者がこれらの構成語間の関係について様々な付帯情報を想定しており、複合語された文字列ではそれらの付帯情報を読み手が一意に解釈できない可能性が高い、という推定に基づいている。この方法では、2つの構成語の間に含まれる構成語以外の自立語の数が多いほどリスクが高いとするリスク指標で、相対的なリスクを定量的に推定するルールなども考えられる。
用語判定部60は、用語リスク推定部50で推定した各未登録語のリスクの有無に基づき、所定の用語判定ルールによって、用語集に登録すべき用語を判定する。
ここで、用語判定ルールとは、各未登録語のリスクの有無に関する情報であって、リスクが高いと考えられる未登録語ほど、用語集に登録すべきと判定するルールであればよい。
例えば、単純にリスクが有ると推定させる記載パターンが一つでもあれば、未登録語を用語集に登録すべき用語と判定するルールが考えられる。
また、リスクが無いと推定させる記載パターンが一つでもあればその未登録語は用語集に登録する必要のない用語と判定するが、それ以外の未登録語は全て用語集に登録すべき用語と判定するルールも考えられる。
また、リスク指標を算出している場合は、リスク指標が、所定の閾値以上の未登録語を、登録すべき用語と判定するルールも有効である。
他にも、用語リスク推定部50の推定で利用した、各未登録語を構成する複数の構成語が入力文書内で共起する文全体の数に対する、リスクが有ると推定させる記載パターンの文の数の割合を、有リスクパターン出現率として指標化し、有リスクパターン出現率の値が所定の閾値以上の場合に用語集に登録すべき用語と判定するルールも考えられる。
同様に用語リスク推定部50の推定で利用した、各未登録語を構成する複数の構成語が、入力文書内で共起する文の数に対するリスクが無いと推定させる記載パターンの文の数の割合を無リスクパターン出現率として指標化し、無リスクパターン出現率の値が所定の閾値以上の場合に用語集に登録する必要がない用語と判定するルールも考えられる。
さらに、同一の未登録語について、リスクが有ると推定させる記載パターンとリスクが無いと推定させる記載パターンが併存する場合は、それぞれの文の数の多寡で、リスクが有ると推定させる記載パターンの方が多ければ、用語集に登録すべき用語と判定する方法も考えられる。
出力部70は、用語判定部60で判定した、用語集に登録すべき用語について、記載者に用語集への登録を促すために、出力する。この際、用語の文書内での存在位置や、用語集に登録すべき用語と判定した根拠となる記載パターンなども合わせて出力してもよい。出力形態は、所要の形態で出力すれば良い。例えば、出力形態としては、各用語を抽出した表などの形態などが適当である。他にも、文書内における各用語を色分けや太字による強調、文字の拡大などで明示することで、文書全体を出力する形態であって良い。他に、出力形態としては、各用語のリスク指標や非リスク指標によって色分けや太字による強調または単語の文字の大きさなどに強弱を与えるなどしても良い。また、用語毎のリスク指標の値を文書全体または任意の範囲で集計し、文書の品質を表す指標として表形式で出力しても良い。また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表に移行できるようにしても良い。
また、用語判定部60で判定した用語集に登録すべき用語を用語データベース110の定義済みの用語として追加し、更新するようにしてもよい。
次に、図1及び図2を参照して、本発明の実施形態に係る文書分析システムの動作について詳細に説明する。図2は、図1に示した用語集作成支援システムの動作例を示すシーケンス図である。なお、図2に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行っても良い。
文書入力部10は、文書に固有の用語を含む可能性が有り、用語集への登録が必要な用語を分析したい文書または文書群の入力を受け付ける(ステップA1)。
文書解析部20は、文書または文書群を構成する各文章に形態素解析を適用することで、各文章に使用されている全単語の単語情報の抽出を行う(ステップA2)。
複合語推測部30は、文書解析部20で抽出された全単語の単語情報を用いて、名詞または辞書に登録されていない未知語が助詞などを挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を全て結合した単語を複合語として推測する(ステップA3)。
用語データベース110は、文書群において、固有の定義があり、その定義を関係者に共有する必要がある用語を事前に収集して蓄積しておく。そして任意の文字列が用語に該当するかどうかに関する問い合わせに対し、問い合わせ対象の文字列が用語に含まれるか検索し、応答する(ステップA4)。
未登録語抽出部40は、複合語推測部30で推定した複合語について、各複合語の文字列が用語として登録されているかどうかを用語データベース110に問合せ、用語として登録されていない未登録語を検出する(ステップA5)。
用語リスク推定部50は、未登録語抽出部40で検出した各未登録語に関して、文書解析部20で抽出した入力文書中の全単語の単語情報を利用して(A2からA6への矢印で示す)、未登録語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、未登録語が異なる解釈を引き起こすリスクの有無を推定する(ステップA6)。
用語判定部60は、用語リスク推定部50で推定した各未登録語のリスクの有無に基づき、所定の用語判定ルールによって、用語集に登録すべき用語を判定する(ステップA7)。
出力部70は、用語判定部60で判定した用語集に登録すべき用語について、記載者に用語集への登録を促すために、出力する(ステップA8)。
次に、図1、図3を参照して、本発明の実施形態に係る用語集作成支援システム100の動作について具体例を用いて説明する。図3は、本発明の実施形態に係る用語集作成支援システムの全体の構成を示すブロック図である。
用語集作成支援システム100は、図3に示されるように、文書解析システムYと、イントラネット・サーバZとで構成されるものとする。
まず、図1と図3との対応関係について説明する。
文書入力部10は、PC端末Bの入力部として動作する。文書解析部20と、複合語推測部30と、未登録語抽出部40と、用語リスク推定部50と、用語判定部60とは、文書解析システムY内に含まれている。出力部70は、PC端末Bの出力部として動作する。用語データベース110はイントラネット・サーバZ内に含まれている。
用語集作成支援システム100は、仕様書などの複数の解釈が起きないように、用語集に登録すべき用語を抽出したい文書群D内で、分析時点での用語集に登録が無く、新規の用語である可能性の高い複合語Waについて、複数の解釈が起きる可能性を示すリスク情報Raを用語Wa毎に推定し、さらにリスク情報Raに基づき各用語Waが用語集に登録すべき用語Taかどうかを判定する。そして、用語集作成支援システム100は、判定された用語Taを出力することで、文書群Dにおける用語集に登録すべき用語の把握を容易にし、用語集の作成やメンテナンスを効率化する。
文書解析システムYは、分析実施者Kの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Kが用語Taを判定したい文書群を構成する文章の入力と、用語Taの提示を実現する。
イントラネット・サーバZは、分析実施者Kの持つ、文書解析システムYを実装したPC端末Bと通信ネットワークを介して接続されている。イントラネット・サーバZは、文書解析システムYからの単語の問い合わせに対し、任意の文字列が用語に該当するかどうかに関する問い合わせに対し、問い合わせ対象の文字列が用語に含まれるか検索を可能にする装置である。
この様な手段を備えた文書解析システムY、イントラネット・サーバZは、以下のような動作をする。
文書解析システムYは、入力部から、情報システム構築に関する提案書や仕様書といった、分析実施者Kが複数の解釈が起きないように用語集に登録すべき用語Taを抽出したい文書群Dの入力を受け付ける。そして、文書解析システムYは、文書群Dを構成する文章毎に形態素解析を適用し、文書群Dに含まれる全ての単語Wi(i=1、2、・・・、n)について単語の文字列を単語情報として抽出する。さらに、文書解析システムYは、文書の文の出現順に通し番号として文番号を付け、各単語を含む文の文番号を単語情報に加える。
さらに文書解析システムYは、文書群Dに含まれる全ての単語Wiの並びを解析し、名詞または辞書に登録されていない未知語、接辞語などが助詞などを挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を全て結合した文字列を複合語Waとして推測する。例えば、「期間内で収集された入荷金額を合計した値を入力データとして登録する。」という文が有れば、「入荷金額」と「入力データ」が複合語として抽出される。同様に文書群Dにおける複合語Waとして以下の表1のような語を推定する。
Figure 2016009415
さらに、イントラネット・サーバZは、文書群Dにおいて、固有の定義があり、その定義を関係者に共有する必要がある定義済み用語Tを予め収集して蓄積しておく。定義済み用語Tには、例えば、用語集と呼ばれる文書の情報が適しており、表2のような語を取集したリストが該当する。
Figure 2016009415
さらにイントラネット・サーバZは、任意の単語や表現の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムYからの問い合わせに応じて、問い合わせ対象の文字列が用語に該当するかどうかを判定し、応答する。
次に、文書解析システムYは、文書群Dにおける複合語Waの文字列が、定義済み用語Tとして登録されているかどうかをイントラネット・サーバZに問合せ、定義済み用語Tとして登録されていない未登録語Tnを検出する。例えば、文書群Dにおける複合語Waの文字列が表1のとおりで、定義済み用語Tが表2の通りであれば、未登録語Tnは表3のようになる。
Figure 2016009415
次に、文書解析システムYは、各未登録語Tnについて、同一の未登録語Tnを構成する構成語群Cnに含まれる構成語Cni(2≦i≦p:pは未登録語Tnを構成する構成語の総数)の内で少なくとも2つの構成語Cnaと構成語Cnbが文書群D中で共起している文を抽出し、構成語Cnaと構成語Cnbが「の」、「した」、「された」、「に関する」といった省略しても単語の解釈に影響しない表現で結合された記載パターンの文がある場合はリスクが無いと推定する。
例えば、表3の「入力データ」という未登録語Tnであれば、構成語Cnは「入力」と「データ」となり、文書群D中で「入力」と「データ」が共起する文を抽出した結果、「入力されたデータ」という文が存在した場合、「入力」と「データ」が「された」という省略しても単語の解釈に影響しない表現で結合されているため、リスクが無いと推定する。また、「経費精算システム」という未登録語Tnであれば、構成語Cnは「経費」と「精算」と「システム」となり、文書群D中で「経費を精算」や「経費に関するシステム」という文が存在した場合、「経費」と「精算」が「を」という省略しても単語の解釈に影響しない表現で結合され、「経費」と「システム」が「に関する」という省略しても単語の解釈に影響しない表現で結合されているため、リスクが無いと推定する。さらに、省略しても単語の解釈に影響しない表現で構成語間を結合した記載パターンの文の種類数を数え、「入力データ」の場合は「入力されたデータ」と「入力したデータ」の2パターンあるため、リスクは−2、「対象エリア」の場合は「対象のエリア」、「対象としたエリア」、「対象になるエリア」の3パターンあるため、リスクは−3のように、記載パターンの文の種類数が多いほどリスクが低いとする低リスク指標Rlnで相対的なリスクを定量的に推定してもよい。
なお、省略しても単語の解釈に影響しない表現は、任意に設定してよいが、助詞全般、およびサ変動詞の活用形などが適している。
さらに文書解析システムYは、各未登録語Tnについて、同一の未登録語Tnを構成する構成語群Cnに含まれる構成語Cniの内で少なくとも2つの構成語Cnaと構成語Cnbが文書群D中で共起している文を抽出し、構成語Cnaと構成語Cnbの間に、同一の複合語に含まれる構成語以外の自立語が含まれる記載パターンの文がある場合はリスクが有ると推定する。
例えば、表3の「入荷金額」という未登録語Tnであれば、構成語Cnは「入荷」と「金額」となり、文書群D中で「入荷」と「金額」が共起する文を抽出した結果、「入荷時に支払った金額から消費税分を割り戻した金額を・・」という文が存在した場合、「入荷」と「金額」以外に「支払った」、「消費税」、「割り戻し」という複合語の構成語だけでは想定できないが単語の解釈に影響のある表現が含まれている(同一の複合語に含まれる構成語以外の自立語が含まれる記載パターンの文がある)ため、リスクが有ると推定する。さらに、同一の複合語に含まれる構成語以外の自立語が含まれる記載パターンの文での構成語以外の自立語の数を数え、「入荷金額」の場合は「支払った」、「消費税」、「割り戻し」の3語あるため、リスクは+3、「購買リスト」の場合は「商品」、「購入」、「時期」、「担当者」の4パターンあるため、リスクは+4のように、記載パターンの文における構成語以外の自立語の数が多いほどリスクが高いとする高リスク指標Rhnで相対的なリスクを定量的に推定してもよい。
上記の観点で表3の各未登録語Tnのリスクの有無を推定した結果は以下の表4のようになる。
Figure 2016009415
さらに、文書解析システムYは、推定した各未登録語Tnのリスクの有無に基づき、用語集に登録すべき用語Taを判定する。用語Taの判定は、単純に、リスクの有るとされた未登録語Tnだけを用語Taとする方法や、リスクの無いとされた未登録語Tn以外の全未登録語Tnを用語Taとする方法でよい。また、低リスク指標Rlnと高リスク指標Rhnを算出している場合は、低リスク指標Rlnと高リスク指標Rhnの和をリスク指標Rnとし、Rnが閾値以上の未登録語Tnを用語Taと判定するのが有効である。
例えば、表4のケースで、リスク指標の和の閾値を0以上とした場合は、高リスク指標がプラスになっている「入荷金額」と「購買リスト」、および、どちらのリスク指標も算出されておらず、リスク指標の和を0とみなす「緊急運用準備」、「連絡用情報」を用語Taと判定するため、判定結果は以下の表5のようになる。
Figure 2016009415
さらに、文書解析システムYは、判定した用語Taを、用語集に加えるべき用語として分析実施者Kに提示する。例えば、表5のようなリストをそのまま提示してもよいし、用語Waの利用されている文番号に基づき、文書群D内における各用語Waを着色し明示することで、用語の用例を分かりやすくし表示してもよい。
以上、説明したように、本実施形態では、文書内で使用された単語の書かれ方に基づいてリスクを推定することで、用語集に登録すべき用語の候補を絞り込んで出力するように構成している。そのため、文書の記載者の単語に対する想定を、用語として登録しなければ複数の解釈のリスクが有りうるという推定に反映することができ、異なる解釈の起きるリスクが大きく、用語集に登録すべき用語に絞り込んだ用語の抽出が可能になり、用語集の作成・メンテナンスを効率化することが可能になる。
なお、上記本発明の実施形態に係る文書分析システム100は、文書分析方法として実現され得る。また、上記本発明の実施形態に係る文書分析システム100は、文書分析プログラムによりコンピュータによって実行させるようにしても良い。
以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要は
ない。例えば、各構成要素は、複数の構成要素が1個のモジュールとして実現されてよい
。また、各構成要素は、1つの構成要素が複数のモジュールで実現されてもよい。また、
各構成要素は、ある構成要素が他の構成要素の一部であるような構成であってよい。また
、各構成要素は、ある構成要素の一部と他の構成要素の一部とが重複するような構成であ
ってもよい。
以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、
必要に応じ、可能であれば、ハードウェア的に実現されてよい。また、各構成要素及び各
構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてよい。また
、各構成要素及び各構成要素を実現するモジュールは、ハードウェア的なモジュールとコ
ンピュータ及びプログラムとの混在により実現されてもよい。
そのプログラムは、例えば、磁気ディスクや半導体メモリなど、不揮発性のコンピュー
タ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに
読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御すること
により、そのコンピュータを前述した各実施形態における構成要素として機能させる。
また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載
してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。この
ため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障のない範囲
で変更することができる。
更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行さ
れることに限定されない。例えば、ある動作の実行中に他の動作が発生したり、ある動作
と他の動作との実行タイミングが部分的に乃至全部において重複していたりしていてもよ
い。
更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載して
いるが、その記載はある動作と他の動作との全ての関係を限定するものではない。このた
め、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で
変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作
を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施
する上で機能的、性能的、その他の特性に対して支障をきたさない範囲内で変更してもよ
い。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付ける文書入力部と、
前記文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行う文書解析部と、
前記文書解析部で抽出された前記単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測する複合語推測部と、
前記複合語推測部で推測された各複合語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、前記複合語が異なる解釈を引き起こすリスクの有無を推定する用語リスク推定部と、
前記用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、前記用語集に登録すべき用語を判定する用語判定部と、
前記用語判定部で判定した、前記用語集に登録すべき用語について、前記用語集への登録を促すために、前記用語を出力する出力部と、
を有することを特徴とする文書の用語集作成支援システム。
(付記2)
文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付ける文書入力部と、
前記文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行う文書解析部と、
前記文書解析部で抽出された前記単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測する複合語推測部と、
前記文書群において、固有の定義があり、その定義を関係者に共有する必要がある用語を収集して蓄積し、任意の文字列が用語に該当するかどうかに関する問い合わせに対し、問い合わせ対象の文字列が用語に含まれるか検索し、応答する用語データベースと、
前記複合語推測部で推定した前記複合語について、各複合語の文字列が用語として登録されているかどうかを前記用語データベースに問合せ、用語として登録されていない未登録語を検出する未登録語抽出部と、
前記文書解析部で抽出された単語の前記単語情報を用いて、入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、異なる解釈を引き起こすリスクの有無を推定する用語リスク推定部と、
前記用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、前記用語集に登録すべき用語を判定する用語判定部と、
前記用語判定部で判定した、前記用語集に登録すべき用語について、前記用語集への登録を促すために、前記用語を出力する出力部と、
を有することを特徴とする文書の用語集作成支援システム。
(付記3)
前記所定のリスク推定ルールは、前記複合語または前記未登録語を構成する複数の構成語間が、省略しても単語の解釈に影響しない表現で結合された記載パターンの文がある場合はリスクが無いとする、文書の記載者の単語に対する想定が反映される記載パターンとの一致状況でリスクの有無を推定することを特徴とする付記1または2に記載の用語集作成支援システム。
(付記4)
前記所定のリスク推定ルールは、前記複合語または前記未登録語を構成する複数の前記構成語が共起する文で、2つの構成語の間に自立語が含まれ、その自立語がその複合語または未登録語を構成する構成語ではない、という記載パターンの文がある場合は、リスクが有るとすることを特徴とする付記1または2に記載の用語集作成支援システム。
(付記5)
前記所定のリスク推定ルールは、同一の前記複合語または前記未登録語に関して、省略しても単語の解釈に影響しない表現で構成語間を結合した記載パターンの文の種類数が多いほどリスクが低いとするリスク指標、または2つの前記構成語の間に含まれる前記構成語以外の前記自立語の数が多いほどリスクが高いとするリスク指標によって、相対的なリスクを定量的に推定することを特徴とする付記3または4に記載の用語集作成支援システム。
(付記6)
前記所定の用語判定ルールは、前記各未登録語のリスクの有無に関する情報を用いて、リスクが高いと考えられる前記未登録語ほど前記用語集に登録すべきと判定することを特徴とする付記1から4のうちの1に記載の用語集作成支援システム。
(付記7)
前記所定の用語判定ルールは、リスク指標が閾値以上の前記未登録語を用語と判定するルールであることを特徴とする付記1、2、または5に記載の用語集作成支援システム。
(付記8)
前記所定の用語判定ルールは、リスクが無いと推定させる記載パターンが一つでもあればその前記未登録語は前記用語集に登録する必要のない用語と判定し、それ以外の前記未登録語は全て前記用語集に登録すべき用語と判定することを特徴とする付記1から4のうちの1に記載の用語集作成支援システム。
(付記9)
前記所定の用語判定ルールは、前記各未登録語を構成する複数の前記構成語が入力文書内で共起する文の数に対するリスクが有ると推定させる記載パターンの文の数の割合を有リスクパターン出現率として指標化し、有リスクパターン出現率の値が所定の閾値以上の場合に前記用語集に登録すべき用語と判定することを特徴とする付記1から5のうちの1に記載の用語集作成支援システム。
(付記10)
前記所定の用語判定ルールは、前記各未登録語を構成する複数の前記構成語が入力文書内で共起する文の数に対するリスクが無いと推定させる記載パターンの文の数の割合を無リスクパターン出現率として指標化し、無リスクパターン出現率の値が所定の閾値以上の場合に前記用語集に登録する必要がない用語と判定することを特徴とする付記1から5のうちの1に記載の用語集作成支援システム。
(付記11)
前記所定の用語判定ルールは、同一の前記未登録語について、リスクが有ると推定させる記載パターンとリスクが無いと推定させる記載パターンが併存する場合は、それぞれの文の数の多寡で、リスクが有ると推定させる記載パターンの方が多ければ、前記用語集に登録すべき用語と判定することを特徴とする付記1から5のうちの1に記載の用語集作成支援システム。
(付記12)
文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付けるステップと、
前記文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行うステップと、
文書解析部で抽出された前記単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測するステップと、
複合語推測部で推測された各複合語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、前記複合語が異なる解釈を引き起こすリスクの有無を推定するステップと、
用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、前記用語集に登録すべき用語を判定するステップと、
用語判定部で判定した、前記用語集に登録すべき用語について、前記用語集への登録を促すために、前記用語を出力するステップと、
を有することを特徴とする文書の用語集作成支援方法。
(付記13)
文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付けるステップと、
前記文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行うステップと、
文書解析部で抽出された前記単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測するステップと、
前記文書群において、固有の定義があり、その定義を関係者に共有する必要がある用語を収集して蓄積し、任意の文字列が用語に該当するかどうかに関する問い合わせに対し、問い合わせ対象の文字列が用語に含まれるか検索し、応答するステップと、
複合語推測部で推定した前記複合語について、各複合語の文字列が用語として登録されているかどうかを前記用語データベースに問合せ、用語として登録されていない未登録語を検出するステップと、
未登録語抽出部で検出した各未登録語に関して、前記文書解析部で抽出した入力文書中の前記単語情報を利用して、前記未登録語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、前記未登録語が異なる解釈を引き起こすリスクの有無を推定するステップと、
用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、前記用語集に登録すべき用語を判定するステップと、
用語判定部で判定した、前記用語集に登録すべき用語について、前記用語集への登録を促すために、前記用語を出力するステップと、
を有することを特徴とする文書の用語集作成支援方法。
(付記14)
文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付ける処理と、
前記文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行う処理と、
文書解析部で抽出された前記単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測する処理と、
複合語推測部で推測された各複合語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、前記複合語が異なる解釈を引き起こすリスクの有無を推定する処理と、
用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、前記用語集に登録すべき用語を判定する処理と、
用語判定部で判定した、前記用語集に登録すべき用語について、前記用語集への登録を促すために、前記用語を出力する処理と、
をコンピュータに実行させることを特徴とするプログラム。
(付記15)
文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付ける処理と、
前記文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行う処理と、
文書解析部で抽出された前記単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測する処理と、
前記文書群において、固有の定義があり、その定義を関係者に共有する必要がある用語を収集して蓄積し、任意の文字列が用語に該当するかどうかに関する問い合わせに対し、問い合わせ対象の文字列が用語に含まれるか検索し、応答する処理と、
複合語推測部で推定した前記複合語について、各複合語の文字列が用語として登録されているかどうかを前記用語データベースに問合せ、用語として登録されていない未登録語を検出する処理と、
未登録語抽出部で検出した各未登録語に関して、前記文書解析部で抽出した入力文書中の前記単語情報を利用して、前記未登録語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、前記未登録語が異なる解釈を引き起こすリスクの有無を推定する処理と、
用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、前記用語集に登録すべき用語を判定する処理と、
用語判定部で判定した、前記用語集に登録すべき用語について、前記用語集への登録を促すために、前記用語を出力する処理と、
をコンピュータに実行させることを特徴とするプログラム。
本発明によれば、システム開発における要件定義書や設計書といった案件に固有の定義を持つ用語が存在する文書に関して、用語集に登録すべき語を自動的に抽出し提示することに適用できる。
10 文書入力部
20 文書解析部
30 複合語推測部
40 未登録語抽出部
50 用語リスク推定部
60 用語判定部
70 出力部
110 用語データベース
B PC端末
D 文書群
Y 文書解析システム
Z イントラネット・サーバ

Claims (10)

  1. 文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付ける文書入力部と、
    前記文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行う文書解析部と、
    前記文書解析部で抽出された前記単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに直接隣接している文字列部分に関して、前記隣接する名詞または未知語を結合した単語を複合語として推測する複合語推測部と、
    前記複合語推測部で推測された各複合語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、前記複合語が異なる解釈を引き起こすリスクの有無を推定する用語リスク推定部と、
    前記異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、前記用語集に登録すべき用語を判定する用語判定部と、
    前記用語判定部で判定した、前記用語集に登録すべき用語について、前記用語集への登録を促すために、前記用語を出力する出力部と、
    を有することを特徴とする文書の用語集作成支援システム。
  2. 文書に固有の用語について用語集への登録を行う、文書または文書群の入力を受け付ける文書入力部と、
    前記文書または文書群を構成する各文章に使用されている単語の単語情報の抽出を行う文書解析部と、
    前記文書解析部で抽出された前記単語情報を用いて、名詞または辞書に登録されていない未知語が付属語を挟まずに隣接している文字列部分に関して、隣接する名詞および未知語を結合した単語を複合語として推測する複合語推測部と、
    前記文書群において、固有の定義があり、その定義を関係者に共有する必要がある用語を収集して蓄積し、任意の文字列が用語に該当するかどうかに関する問い合わせに対し、問い合わせ対象の文字列が用語に含まれるか検索し、応答する用語データベースと、
    前記複合語推測部で推定した前記複合語について、各複合語の文字列が用語として登録されているかどうかを前記用語データベースに問合せ、用語として登録されていない未登録語を検出する未登録語抽出部と、
    未登録語抽出部で検出した各未登録語に関して、前記文書解析部で抽出した入力文書中の前記単語情報を利用して、前記未登録語を構成する複数の構成語が入力文書内で共起する文を解析し、所定のリスク推定ルールに基づき、前記未登録語が異なる解釈を引き起こすリスクの有無を推定する用語リスク推定部と、
    前記用語リスク推定部で推定した異なる解釈を引き起こすリスクの有無に基づき、所定の用語判定ルールによって、前記用語集に登録すべき用語を判定する用語判定部と、
    前記用語判定部で判定した、前記用語集に登録すべき用語について、前記用語集への登録を促すために、前記用語を出力する出力部と、
    を有することを特徴とする文書の用語集作成支援システム。
  3. 前記所定のリスク推定ルールは、前記複合語または前記未登録語を構成する複数の構成語間が、省略しても単語の解釈に影響しない表現で結合された記載パターンの文がある場合はリスクが無いとする、文書の記載者の単語に対する想定が反映される記載パターンとの一致状況でリスクの有無を推定することを特徴とする請求項1または2に記載の用語集作成支援システム。
  4. 前記所定のリスク推定ルールは、前記複合語または前記未登録語を構成する複数の前記構成語が共起する文で、2つの構成語の間に自立語が含まれ、その自立語がその複合語または未登録語を構成する構成語ではない、という記載パターンの文がある場合は、リスクが有るとすることを特徴とする請求項1または2に記載の用語集作成支援システム。
  5. 前記所定のリスク推定ルールは、同一の前記複合語または前記未登録語に関して、省略しても単語の解釈に影響しない表現で構成語間を結合した記載パターンの文の種類数が多いほどリスクが低いとするリスク指標、または2つの前記構成語の間に含まれる前記構成語以外の前記自立語の数が多いほどリスクが高いとするリスク指標によって、相対的なリスクを定量的に推定することを特徴とする請求項3または4に記載の用語集作成支援システム。
  6. 前記所定の用語判定ルールは、前記各未登録語のリスクの有無に関する情報を用いて、リスクが高いと考えられる前記未登録語ほど前記用語集に登録すべきと判定することを特徴とする請求項1から4のうちの1に記載の用語集作成支援システム。
  7. 前記所定の用語判定ルールは、リスク指標が閾値以上の前記未登録語を登録すべきと判定するルールであることを特徴とする請求項1、2、または5に記載の用語集作成支援システム。
  8. 前記所定の用語判定ルールは、リスクが無いと推定させる記載パターンが一つでもあればその前記未登録語は前記用語集に登録する必要のない用語と判定し、それ以外の前記未登録語は全て前記用語集に登録すべき用語と判定することを特徴とする請求項1から4のうちの1に記載の用語集作成支援システム。
  9. 前記所定の用語判定ルールは、前記各未登録語を構成する複数の前記構成語が入力文書内で共起する文の数に対するリスクが有ると推定させる記載パターンの文の数の割合を有リスクパターン出現率として指標化し、有リスクパターン出現率の値が所定の閾値以上の場合に前記用語集に登録すべき用語と判定することを特徴とする請求項1から5のうちの1に記載の用語集作成支援システム。
  10. 前記所定の用語判定ルールは、前記各未登録語を構成する複数の前記構成語が入力文書内で共起する文全体の数に対する、リスクが無いと推定させる記載パターンの文の数の割合を無リスクパターン出現率として指標化し、無リスクパターン出現率の値が所定の閾値以上の場合に前記用語集に登録する必要がない用語と判定することを特徴とする請求項1から5のうちの1に記載の用語集作成支援システム。
JP2014130935A 2014-06-26 2014-06-26 用語集作成支援システムおよび方法、プログラム Active JP6357912B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014130935A JP6357912B2 (ja) 2014-06-26 2014-06-26 用語集作成支援システムおよび方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014130935A JP6357912B2 (ja) 2014-06-26 2014-06-26 用語集作成支援システムおよび方法、プログラム

Publications (2)

Publication Number Publication Date
JP2016009415A true JP2016009415A (ja) 2016-01-18
JP6357912B2 JP6357912B2 (ja) 2018-07-18

Family

ID=55226909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014130935A Active JP6357912B2 (ja) 2014-06-26 2014-06-26 用語集作成支援システムおよび方法、プログラム

Country Status (1)

Country Link
JP (1) JP6357912B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123227A (ja) * 2019-01-31 2020-08-13 富士通株式会社 単語出力方法、単語出力プログラム及び情報処理装置
CN117555995A (zh) * 2024-01-11 2024-02-13 北京领初医药科技有限公司 一种分级式缩略语句匹配确认方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067354A (ja) * 1999-08-27 2001-03-16 Matsushita Electric Ind Co Ltd 新語性判定装置及び新語性判定方法
JP2007079652A (ja) * 2005-09-12 2007-03-29 Advanced Telecommunication Research Institute International 用語抽出装置、およびプログラム
JP2009123067A (ja) * 2007-11-16 2009-06-04 Hitachi Systems & Services Ltd 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001067354A (ja) * 1999-08-27 2001-03-16 Matsushita Electric Ind Co Ltd 新語性判定装置及び新語性判定方法
JP2007079652A (ja) * 2005-09-12 2007-03-29 Advanced Telecommunication Research Institute International 用語抽出装置、およびプログラム
JP2009123067A (ja) * 2007-11-16 2009-06-04 Hitachi Systems & Services Ltd 用語辞書生成方法、用語辞書生成装置、プログラム、および記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020123227A (ja) * 2019-01-31 2020-08-13 富士通株式会社 単語出力方法、単語出力プログラム及び情報処理装置
CN117555995A (zh) * 2024-01-11 2024-02-13 北京领初医药科技有限公司 一种分级式缩略语句匹配确认方法及系统
CN117555995B (zh) * 2024-01-11 2024-04-12 北京领初医药科技有限公司 一种分级式缩略语句匹配确认方法及系统

Also Published As

Publication number Publication date
JP6357912B2 (ja) 2018-07-18

Similar Documents

Publication Publication Date Title
Sadvilkar et al. PySBD: Pragmatic sentence boundary disambiguation
Dickinson et al. Detecting inconsistencies in treebanks
Bhatia et al. Towards an information type lexicon for privacy policies
Sunilkumar et al. A survey on semantic similarity
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
EP1941399A2 (en) Method and apparatus for automatic entity disambiguation
Rosales-Méndez et al. VoxEL: a benchmark dataset for multilingual entity linking
JP2011118526A (ja) 単語意味関係抽出装置
US11386269B2 (en) Fault-tolerant information extraction
US20130282598A1 (en) Patent assessment system and method
JP2007072646A (ja) 検索装置、検索方法およびプログラム
Cucerzan MSR System for Entity Linking at TAC 2012.
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
Radoev et al. A language adaptive method for question answering on French and English
Glass et al. A naive salience-based method for speaker identification in fiction books
US20100094615A1 (en) Document translation apparatus and method
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
JP2008242626A (ja) 用語登録装置
Nguyen et al. Vietnamese treebank construction and entropy-based error detection
JP6357912B2 (ja) 用語集作成支援システムおよび方法、プログラム
Dootio et al. Syntactic parsing and supervised analysis of Sindhi text
Putri et al. Software feature extraction using infrequent feature extraction
JP5703629B2 (ja) 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム
WO2019225007A1 (ja) 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180320

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180604

R150 Certificate of patent or registration of utility model

Ref document number: 6357912

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150