JP2008305078A - 関連語抽出支援装置および関連語抽出支援プログラム - Google Patents
関連語抽出支援装置および関連語抽出支援プログラム Download PDFInfo
- Publication number
- JP2008305078A JP2008305078A JP2007150485A JP2007150485A JP2008305078A JP 2008305078 A JP2008305078 A JP 2008305078A JP 2007150485 A JP2007150485 A JP 2007150485A JP 2007150485 A JP2007150485 A JP 2007150485A JP 2008305078 A JP2008305078 A JP 2008305078A
- Authority
- JP
- Japan
- Prior art keywords
- term
- terms
- dictionary
- related word
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】従来は、動詞+格と名詞の出現頻度をもとにシソーラスへ登録するための名詞の類似度を計算しているが、名詞同士がどのような関係性を持つかに依存した関連語は抽出することができない。
【解決手段】用語の見出しとその用語の意味分類等が格納された用語辞書と、用語間のn項関係を定義したn項関係辞書と、コーパスから用語間の類似度を計算して用語類似度辞書に格納する用語類似度計算手段と、用語辞書と、用語間n項関係辞書と、用語類似度計算手段で用語間の類似度が格納された用語類似度辞書とから、対象用語に対する関連度を基に関連語候補を抽出する関連語候補抽出手段を備え、対象用語と関連語間の関係性を考慮した関連語の抽出が行う。
【選択図】図1
【解決手段】用語の見出しとその用語の意味分類等が格納された用語辞書と、用語間のn項関係を定義したn項関係辞書と、コーパスから用語間の類似度を計算して用語類似度辞書に格納する用語類似度計算手段と、用語辞書と、用語間n項関係辞書と、用語類似度計算手段で用語間の類似度が格納された用語類似度辞書とから、対象用語に対する関連度を基に関連語候補を抽出する関連語候補抽出手段を備え、対象用語と関連語間の関係性を考慮した関連語の抽出が行う。
【選択図】図1
Description
この発明は電子化文書の検索や分析により業務へフィードバックするため電子化文書を検索する際に用いられる関連語を抽出する関連語抽出支援装置およびその機能をコンピュータに実行させる関連語抽出支援プログラムに関する。
近年、電子化して蓄積される文書の増加にともない、業務の効率化の観点で文書検索機能が重要視されるようになってきた。
また、業務で作成される電子化文書も増加しており、業務に依存した文書の検索や分析を行って業務へフィードバックするための技術が求められるようになってきた。その一例として、蓄積された不具合報告書に関する用語を用いて新規の設計書の該当箇所を検索することにより不具合につながる記述をチェックする技術がある。
また、業務で作成される電子化文書も増加しており、業務に依存した文書の検索や分析を行って業務へフィードバックするための技術が求められるようになってきた。その一例として、蓄積された不具合報告書に関する用語を用いて新規の設計書の該当箇所を検索することにより不具合につながる記述をチェックする技術がある。
前記のような業務依存の検索や文書チェックの技術を利用する際に、関連語を抽出する技術が重要となる。
例えば、検索の入力時には、ある部品名が入力された時に、検索の絞込みに役立つ的確な用語として、単なる類義語ではなく、例えば、入力された部品名と属性の関係を持つ用語を関連語として提示することが求められている。
また、業務依存の文書のチェックとして、ある部品名に関する不具合の原因をチェックするルールにおいては、例えば、部品名とその部品名に関連する属性の対をルールとして作成しておく場合が多く、この部品名と属性という関係を持つ関連語の対を効率よく作成したいという要求がある。
例えば、検索の入力時には、ある部品名が入力された時に、検索の絞込みに役立つ的確な用語として、単なる類義語ではなく、例えば、入力された部品名と属性の関係を持つ用語を関連語として提示することが求められている。
また、業務依存の文書のチェックとして、ある部品名に関する不具合の原因をチェックするルールにおいては、例えば、部品名とその部品名に関連する属性の対をルールとして作成しておく場合が多く、この部品名と属性という関係を持つ関連語の対を効率よく作成したいという要求がある。
これらの要求に対して、該当業務ごとに文書中で用いられる用語とその関連語の関係が異なるので、あらかじめ網羅された関連語辞書が作成されていることは期待できないため、応用目的に応じて関連語の抽出を効率よく行う技術が望まれている。
この発明は、このように業務依存で用いられる文書に関する関連語の抽出を支援するための技術に関するものである。
なお、この発明において、単語と用語(単語および複合語を含む)という言葉は、特に明示しない場合は、区別せず同じ意味で用いるものとする。
この発明は、このように業務依存で用いられる文書に関する関連語の抽出を支援するための技術に関するものである。
なお、この発明において、単語と用語(単語および複合語を含む)という言葉は、特に明示しない場合は、区別せず同じ意味で用いるものとする。
従来から、関連語の抽出に関連する技術として、シソーラスへ単語を登録する技術が用いられており、例えば、特許文献1がある。
特許文献1は、シソーラスにおける未登録語の類似度を計算するために、未登録語に関係する別の語とその関係を抽出した特徴ベクトルにより関連するシソーラスの登録ノードを選定してシソーラスを構築する方法を開示している。
特許文献1の[0028]から[0029]では、未登録語、格要素、動詞の三つ組みを特徴ベクトルの項として関連する登録先ノードを選定する方法が示されている。
特許文献1の[0028]から[0029]では、未登録語、格要素、動詞の三つ組みを特徴ベクトルの項として関連する登録先ノードを選定する方法が示されている。
しかしながら、特許文献1に示された従来の技術では、動詞+格と名詞の出現頻度をもとにシソーラスへ登録するための名詞の類似度を計算しているが、名詞同士がどのような関係性を持つかに依存した関連語は抽出することができないという問題点があった。
例えば、電気関連の技術文書を対象とした場合に、「SW」という入力により、従来技術では「リレー」、「スイッチ」のように類似した単語を抽出することができる。しかし、電気部品という意味で類似した「リレー」や「スイッチ」ととともに、これらの用語と属性という関係をもつ「接点」のような用語を関係性を考慮して抽出することはできなかった。
この発明は上記のような問題点を解決するためになされたもので、業務依存のn項関係辞書を用いることにより、用語間の関係性(部品名とその属性など)を考慮した関連語の抽出を支援する装置を実現することを目的とするものである。
この発明に係る関連語抽出支援装置は、指定した用語に関連する他の用語の抽出を支援する関連語抽出支援装置であって、
用語の見出しとその用語の意味分類等が格納された用語辞書と、
用語間のn項関係を定義した用語間のn項関係辞書と、
コーパスから用語間の類似度を計算して用語類似度辞書に格納する用語類似度計算手段と、
用語辞書と、用語間n項関係辞書と、用語類似度計算手段で用語間の類似度が格納された用語類似度辞書とから、対象用語に対する関連度を基に関連語候補を抽出する関連語候補抽出手段を備え、
対象用語と関連語間の関係性を考慮した関連語の抽出が行うものである。
用語の見出しとその用語の意味分類等が格納された用語辞書と、
用語間のn項関係を定義した用語間のn項関係辞書と、
コーパスから用語間の類似度を計算して用語類似度辞書に格納する用語類似度計算手段と、
用語辞書と、用語間n項関係辞書と、用語類似度計算手段で用語間の類似度が格納された用語類似度辞書とから、対象用語に対する関連度を基に関連語候補を抽出する関連語候補抽出手段を備え、
対象用語と関連語間の関係性を考慮した関連語の抽出が行うものである。
この実施の関連語抽出支援装置によれば、業務依存で作成したn項関係辞書を用いることにより、用語間の関係性(部品名とその属性など)を考慮した関連語の抽出を支援する装置を実現することができる。
実施の形態1.
図1はこの発明の実施の形態1の基本構成を示す構成図である。
図1において、
1010は、用語の見出しとその用語の意味分類等が格納された用語辞書で、対象とする業務で用いられる文書中の用語の関係に応じて複数n種類のものがある。
1020は、用語間の関係を記載したn項関係辞書、
1030は、仕様書、マニュアル等の文書データ等を格納したコーパス、
1040は、コーパス1030から用語辞書1010の用語間の類似度を計算する用語類似度計算手段、
1050は、用語類似度計算手段1040によって計算された用語間の類似度を格納する用語類似度辞書、
1060は、関連語候補を求める対象となる対象用語、
1070は、対象用語1060を入力するための対象用語入力手段、
1080は、対象用語入力手段1070によって入力された対象用語1060に対する関連語候補を抽出する関連語候補抽出手段、
1090は、関連語候補抽出手段1080によって抽出された対象用語1060に関する関連語候補を表示するための関連語候補表示手段、
1100は、関連語候補表示手段1090に表示された関連語候補である。
図1はこの発明の実施の形態1の基本構成を示す構成図である。
図1において、
1010は、用語の見出しとその用語の意味分類等が格納された用語辞書で、対象とする業務で用いられる文書中の用語の関係に応じて複数n種類のものがある。
1020は、用語間の関係を記載したn項関係辞書、
1030は、仕様書、マニュアル等の文書データ等を格納したコーパス、
1040は、コーパス1030から用語辞書1010の用語間の類似度を計算する用語類似度計算手段、
1050は、用語類似度計算手段1040によって計算された用語間の類似度を格納する用語類似度辞書、
1060は、関連語候補を求める対象となる対象用語、
1070は、対象用語1060を入力するための対象用語入力手段、
1080は、対象用語入力手段1070によって入力された対象用語1060に対する関連語候補を抽出する関連語候補抽出手段、
1090は、関連語候補抽出手段1080によって抽出された対象用語1060に関する関連語候補を表示するための関連語候補表示手段、
1100は、関連語候補表示手段1090に表示された関連語候補である。
図2は、この発明の実施の形態1を実現するためのコンピュータのハードウェア資源の構成図である。
図2において、
2010は、図1の対象用語1060を入力するためのキーボード、マウス等の入力装置であり、対象用語入力手段1070を構成する。
2020は、制御装置であり、この発明の基本構成の用語類似度計算手段1040、関連語候補抽出手段1080における計算および全体の動作に関する制御を行うために用いられ、少なくともCPU(Central Processing Unit)2030、主記憶装置2040から構成される。
2050は、2次記憶装置であり、本装置の用語類似度計算手段1040、関連語候補抽出手段1080を実現するためのプログラムの格納、用語辞書1010の格納、n項関係辞書1020の格納、コーパス1030の格納、用語類似度辞書1050の格納のために使用される。また、前記計算の過程で主記憶装置2040の補助記憶として使用されることもある。
図2において、
2010は、図1の対象用語1060を入力するためのキーボード、マウス等の入力装置であり、対象用語入力手段1070を構成する。
2020は、制御装置であり、この発明の基本構成の用語類似度計算手段1040、関連語候補抽出手段1080における計算および全体の動作に関する制御を行うために用いられ、少なくともCPU(Central Processing Unit)2030、主記憶装置2040から構成される。
2050は、2次記憶装置であり、本装置の用語類似度計算手段1040、関連語候補抽出手段1080を実現するためのプログラムの格納、用語辞書1010の格納、n項関係辞書1020の格納、コーパス1030の格納、用語類似度辞書1050の格納のために使用される。また、前記計算の過程で主記憶装置2040の補助記憶として使用されることもある。
2060は、ディスプレイ等の表示装置2070、プリンタ等の印刷装置2080を含む出力装置であり、関連語候補1100の出力、コーパス1030、用語辞書1010、n項関係辞書1020、用語類似度辞書1050等の内容の出力、および、前記抽出、計算、推定の途中過程の出力に使用され、また、関連語候補表示手段1090の機能を実現する。
2090は記録媒体駆動装置、2100はCD−ROM等の記録媒体である。本装置を構成するプログラムやデータが記録媒体2100に格納されている際には、記録媒体駆動装置2090において読み出され、制御装置2020を通じて、2次記憶装置2050に格納され、動作に応じて制御装置2020に読み出されて実行される。
2110は、通信装置であり、他の制御装置との通信に用いられる。ここでは、簡単のため、1つの制御で実行されるとして説明しているが、通信装置によって連携した複数の制御装置および2次記憶装置に分散される構成としても良い。
2090は記録媒体駆動装置、2100はCD−ROM等の記録媒体である。本装置を構成するプログラムやデータが記録媒体2100に格納されている際には、記録媒体駆動装置2090において読み出され、制御装置2020を通じて、2次記憶装置2050に格納され、動作に応じて制御装置2020に読み出されて実行される。
2110は、通信装置であり、他の制御装置との通信に用いられる。ここでは、簡単のため、1つの制御で実行されるとして説明しているが、通信装置によって連携した複数の制御装置および2次記憶装置に分散される構成としても良い。
図3は、この発明の実施の形態1の用語類似度計算手段1040の処理の過程を示す流れ図である。
図3において、
3010は、コーパス1030を解析してコーパス中に含まれる用語を抽出する用語抽出ステップ、
3020は、用語抽出ステップ3010でコーパス1030から抽出された用語と用語辞書1010に格納された用語間の類似度を計算する用語類似度計算ステップである。
図3において、
3010は、コーパス1030を解析してコーパス中に含まれる用語を抽出する用語抽出ステップ、
3020は、用語抽出ステップ3010でコーパス1030から抽出された用語と用語辞書1010に格納された用語間の類似度を計算する用語類似度計算ステップである。
図4は、この発明の実施の形態1の関連語候補抽出手段1080の処理の過程を示す流れ図である。
図4において、
4010は、対象用語1060を対象用語入力手段1070によって入力する対象用語入力ステップ、
4020は、対象用語入力手段1070によって入力された対象用語の関連語を、用語辞書1010,n項関係辞書1020、用語類似度辞書1050を用いて、関連語候補の関連度を計算する関連語候補計算ステップ、
4030は、計算された関連語候補1100を関連語候補表示手段1090に表示する関連語候補表示ステップである。
図4において、
4010は、対象用語1060を対象用語入力手段1070によって入力する対象用語入力ステップ、
4020は、対象用語入力手段1070によって入力された対象用語の関連語を、用語辞書1010,n項関係辞書1020、用語類似度辞書1050を用いて、関連語候補の関連度を計算する関連語候補計算ステップ、
4030は、計算された関連語候補1100を関連語候補表示手段1090に表示する関連語候補表示ステップである。
図5は、この発明の実施の形態1の関連語候補抽出手段1080の関連語候補計算処理の過程を示す流れ図である。
図5において、
5010は、対象用語piとの関係で同じ用語辞書iに格納された用語間の類似度を用語類似度辞書1050から取り出す用語類似度取得ステップ、
5020は、ステップ5010の類似度が閾値thを超える用語pjを集め、関連語を求めるベースとなる用語集合Pを求める類似用語取得ステップ、
5030は、用語集合Pの要素である用語pjに対して所定の関係を持つ用語をn項目関係辞書から取り出し、関連語候補集合Aを求める関連語候補取得ステップ、
5040は、関連語候補集合Aの各要素にスコアを割り当てる関連語候補スコア設定ステップ、
5050は、関連語候補集合Aの要素をスコア順に並べかえる関連語候補順序設定ステップである。
図5において、
5010は、対象用語piとの関係で同じ用語辞書iに格納された用語間の類似度を用語類似度辞書1050から取り出す用語類似度取得ステップ、
5020は、ステップ5010の類似度が閾値thを超える用語pjを集め、関連語を求めるベースとなる用語集合Pを求める類似用語取得ステップ、
5030は、用語集合Pの要素である用語pjに対して所定の関係を持つ用語をn項目関係辞書から取り出し、関連語候補集合Aを求める関連語候補取得ステップ、
5040は、関連語候補集合Aの各要素にスコアを割り当てる関連語候補スコア設定ステップ、
5050は、関連語候補集合Aの要素をスコア順に並べかえる関連語候補順序設定ステップである。
図6は、この発明における用語辞書の例である。用語辞書は、図6に示すように、対象とする業務で用いられる文書中の用語の関係に応じて複数種類のものがあるものとする。
図6(a)は、部品名に関する用語辞書の例であり、部品名の見出しとその意味分類の項目から構成される。
図6(b)は、部品の属性に関する用語辞書の例であり、属性の名前のみの項目からなる。
図6(a)は、部品名に関する用語辞書の例であり、部品名の見出しとその意味分類の項目から構成される。
図6(b)は、部品の属性に関する用語辞書の例であり、属性の名前のみの項目からなる。
図7は、この発明におけるn項関係辞書の一例である。この例では、部品名と属性という項目からなり、部品名というカテゴリを持つそれぞれの用語に対して属性という関係にある用語があることを表している。
図8は、この発明におけるn項関係辞書の他の例である。この例では、部品名、属性、操作、状態という項目からなり、それぞれの部品名に対して、行で対応する属性、操作、状態の各欄の用語が属性、操作、状態という関係にあることを表す。
図9は、この発明におけるn項関係辞書のもう一つの例である。この例では、カテゴリ1という分類で値1の欄に格納された用語が、カテゴリ2の分類を持つ値2の用語とカテゴリ1、カテゴリ2の組で表される関係を持つことを表す。
図10は、コーパスから抽出した用語データの例である。
図11は、コーパスから抽出した用語・格関係データの例である。
図12は、この発明における、ユーザからみた入出力の例である。
図11は、コーパスから抽出した用語・格関係データの例である。
図12は、この発明における、ユーザからみた入出力の例である。
次に、図3、図4、図5を用いて、適宜他の図を参照しながらこの発明の動作の流れを説明する。
まず、図3の用語類似度計算手段1040の処理での用語抽出ステップ3010においてコーパス1030から図10に示す述語データと名詞データのように、用語見出しとその頻度の形で用語データを抽出する。また、図11に示す用語・格関係データを抽出する。用語、および用語・格関係データの抽出は、コーパス1030を形態素解析および構文解析して抽出するが、形態素解析および構文解析の方法については、広く公知であるので、ここでは説明を省略する。なお、前記構文解析は、文中で文節が他の文節に係ることを解析する係り受け解析を含むものとする。ここで、文節とは、自立語(名詞、動詞など)と付属語(助詞、助動詞など)から構成されるものである。名詞+格助詞が動詞に係る、名詞+格助詞の文節が他の名詞の文節と並列関係にある、などが代表的な係り受け解析の結果である。
まず、図3の用語類似度計算手段1040の処理での用語抽出ステップ3010においてコーパス1030から図10に示す述語データと名詞データのように、用語見出しとその頻度の形で用語データを抽出する。また、図11に示す用語・格関係データを抽出する。用語、および用語・格関係データの抽出は、コーパス1030を形態素解析および構文解析して抽出するが、形態素解析および構文解析の方法については、広く公知であるので、ここでは説明を省略する。なお、前記構文解析は、文中で文節が他の文節に係ることを解析する係り受け解析を含むものとする。ここで、文節とは、自立語(名詞、動詞など)と付属語(助詞、助動詞など)から構成されるものである。名詞+格助詞が動詞に係る、名詞+格助詞の文節が他の名詞の文節と並列関係にある、などが代表的な係り受け解析の結果である。
次に、図3の用語類似度計算ステップ3020において、図10に示す用語データと図11に示す用語・格関係データから用語間の類似度を計算し、その結果を用語類似度辞書1050に格納する。ここで、用語間の類似度の計算については、引用文献1で開示されているような様々な手法が従来から計算されており、ここでは、従来から知られている手法を用いて用語間の類似度を計算するものとする。
次に、図4の対象用語入力ステップ4010において、ユーザが入力装置2010で構成される対象用語入力手段1070から関連語を計算する対象となる対象用語を入力する。例えば、図12では、「SW」または「TR」という語がユーザから入力されたことを表しており、対象用語入力ステップ4010では、この入力された用語を受け付ける。図12に示した入力インタフェースでは、入力窓の部分に「部品:」という情報が記載されており、入力された用語が「部品名」というカテゴリを持つことを表している。
また、対象用語入力ステップ4010では、入力した対象用語に関する関連語の表示対象が持つ関係の指定を受け取る。図12示す例では、ユーザは、抽出したい関連語のカテゴリとして、「属性候補」という欄を選択しており、入力した対象用語に関する関連語の表示対象として「属性」という関係を持つ語を提示して欲しい、というユーザの要求も受け取る。
なお、図12では、対象用語のカテゴリは、あたかも「部品名」で固定されているかのように示しているが、関係の欄と同様に、対象用語のカテゴリを選択する形としても構わない。
次に、図4の関連語候補計算ステップ4020において、用語辞書1010と、用語類似度辞書1050と、n項関係辞書1020から対象用語に関する関連語の集合を計算する。関連語候補計算ステップの詳細な処理については、図5を用いて説明を後述する。
次に、図4の関連語候補表示ステップ4030において、図12に示すように、指定された関係を持つ対象用語に関する関連語を、出力装置2060により構成される関連語候補表示手段1090に表示する。
また、図4の関連語候補表示ステップ4030において、図12に示すように、指定された関係を持つ対象用語に関する関連語を出力装置2060に後述する関連語のスコア(関連度)の順で出力する。
このとき、図12では、単に関連語のみを表示しているが、関連度をあわせて表示する構成としても良い。
ここで、図5を用いて、関連語候補計算ステップ4020の詳細な処理の流れを説明する。まず、図5のステップ5010において、対象用語Piと同じカテゴリを持つ用語辞書1010から用語の一覧を受け取り、各用語に対する類似度を用語類似度辞書1050から取り出す。
例えば、図12に示すように、部品名というカテゴリの用語が入力された場合には、図6(a)に示す用語辞書から、部品名の一覧(対象用語と同じカテゴリをもつ用語の一覧)を取り出し、部品名である対象用語piと、各部品名との間の類似度sim(pi,pj)を用語類似度辞書1050から取り出す。
次に、ステップ5020において、類似度sim(pi,pj)が閾値thよりも大きな用語pjからなる用語の集合Pを求める。ここで、閾値thはあらかじめ設定した所定のものを用いても良いし、ユーザから入力させても良い。
次に、ステップ5030において、集合Pの要素である用語pjに対して関係rを持つ(rel_of(pj,aj,r))という表記で表す)用語ajをn項目関係辞書から取り出し、関連語候補の集合Aとする。このとき、関係rは、n項関係辞書に規定された関係とする。ここで、関係rは、例えば、ステップ4010において、ユーザから受け取った「属性」という関係である。図12に例示したように、「操作」、「状態」等であっても良い。
次に、ステップ5040において、ステップ5030で求めた関連語候補の集合Aの各要素の用語ajに対して、用語ajに対応するもとの用語Pjと対象用語Piとの類似度sim(pi,pj)を、各要素ajのスコア(関連度)score(aj)とする。
次に、ステップ5050において、関連語候補の集合Aの各要素の用語ajをスコアscore(aj)の降順(類似度が大きいものから小さいものへ)と並び替える。
これによって、図12に示すような関連語の関連度(スコア)の順によって、スコア(関連度)の高い順に関連語を抽出して提示することが可能となる。
これによって、図12に示すような関連語の関連度(スコア)の順によって、スコア(関連度)の高い順に関連語を抽出して提示することが可能となる。
なお、前述の説明では、あたかも技術文書における関連語の抽出に用いる装置であるかのように説明してきたが、この発明における関連語抽出支援装置は技術文書に限定されるものではない。例えば、図18は、商品説明の検索サイトでの検索絞込み支援を行う場合の、関連語抽出するためのn項関係辞書の場合の他の例である。この例では、機能、操作、状態という項目からなり、行で対応する機能、操作、状態の各欄の用語が、それぞれ機能、操作、状態という関係にあることを表す。このようなn項関係辞書およびこの辞書に含まれる用語辞書を備えることにより、商品説明の検索サイトにおいて、機能に関する用語、例えば、「メール」が入力された場合に、直接「メール」に対して状態という関係を持つとして定義されている用語は「着信」だけであるが、これまで説明してきた動作によって、「メール」と「機能」が類似している用語であると計算された場合には、「機能」対して状態という関係を持つ「受信」という用語も関連語の候補として抽出することができる。
また、前述の説明では、用語辞書1010、n項関係辞書1020を所与のものとして説明しているが、用語類似度辞書1050と同様に、公知の意味分類推定技術を用いてコーパス1030から抽出した用語により用語辞書1010、n項関係辞書1020を構成しても良い。
以上により、この実施の形態によれば、業務依存で作成したn項関係辞書を用いることにより、用語間の関係性(部品名とその属性など)を考慮した関連語の抽出を支援する装置を実現することができる。
実施の形態2.
実施の形態1では、関連語のスコアとして、対象用語と同一カテゴリを持つ用語間の類似度の値を用いる形態について説明したが、関連語のスコアは、対象用語と同一カテゴリを持つ用語間の類似度限定されるものではなく、他の値を用いても良い。関連語のスコアとして、対象用語と同一カテゴリを持つ用語間のシソーラス上の距離を用いる例を実施の形態2として説明する。
なお、実施の形態2を実現するためのコンピュータのハードウェア資源の構成は、実施の形態1と同様であるので省略する。
実施の形態1では、関連語のスコアとして、対象用語と同一カテゴリを持つ用語間の類似度の値を用いる形態について説明したが、関連語のスコアは、対象用語と同一カテゴリを持つ用語間の類似度限定されるものではなく、他の値を用いても良い。関連語のスコアとして、対象用語と同一カテゴリを持つ用語間のシソーラス上の距離を用いる例を実施の形態2として説明する。
なお、実施の形態2を実現するためのコンピュータのハードウェア資源の構成は、実施の形態1と同様であるので省略する。
図13は、この発明の実施の形態2における用語(部品名)シソーラスの例である。図13では、簡潔に示すために、用語のみを示しているが、用語に付随する情報が付加された形態であっても良い。
図14は、この発明における実施の形態2の関連語候補抽出手段1080の関連語候補計算ステップのフローチャートの例である。図14において、ステップ14010以外の動作は、実施の形態1と同様であるので、説明を省略する。
図14は、この発明における実施の形態2の関連語候補抽出手段1080の関連語候補計算ステップのフローチャートの例である。図14において、ステップ14010以外の動作は、実施の形態1と同様であるので、説明を省略する。
図14のステップ14010では、図13に示した用語シソーラス上の用語の距離によって関連語のスコアを計算する。シソーラス上の距離の計算には種々の方法があるが、例えば、シソーラスの木の高さ(用語から最上層の意味分類までにたどる段数)を(m+1)としたとき、階層の下の同じ最下層の意味分類のノードに属する用語(意味分類が同じ用語)間の距離を0、ある最下層の意味分類のノードに属する用語piから木をn段上方向にたどってから下方向にたどった最下層の意味分類のノードに属する用語piと間の距離dist(pi,pi)をn/mとする。このとき、関連語のスコアscore(aj)を1- score(aj)として設定する。
例えば、図13に示したシソーラスの例では、最下層の意味分類「電気部品」に属する用語「SW」と用語「リレー」は距離dist(スイッチ, リレー)=0である。また、最下層の意味分類「電気部品」に属する用語「スイッチ」と最下層の意味分類「情報部品」に属する「レジスタ」との間の距離は、シソーラスの高さが4(m=3)、意味分類「電気部品」から意味分類「部品」まで木を1段たどるのでdist(スイッチ, レジスタ)=1/3であるとする。もちろん、シソーラス上の距離の定義としては他の計算式を用いても良い。
したがって、対象用語が「SW」である場合には、図13で、「スイッチ」および「リレー」は同じ電気部品のノードに属しているので距離が0となる。このとき、n項関係辞書として図7を用いた場合には、部品名「スイッチ」の属性「NO接点」、「接点」と部品名「リレー」の属性「ON接点」、「OFF接点」、「接触点」がスコアの値が1となり「SW」の関連語として上位(最初の方)に表示される。
また、情報部品のノードに属する部品名「レジスタ」等の場合は、対象用語が「SW」との距離が1/3となるので、「レジスタ」の属性「アドレス」、「上位バイト」、「下位バイト」等は、前述の「NO接点」、「接点」、「ON接点」、「OFF接点」、「接触点」等よりもスコアの値が小さく(1−1/3)となり、下位(後ろの方に)表示される。
この実施の形態2の構成により、対象分野の知識を反映したシソーラスを反映した距離を基にしたスコアの順番で関連語を抽出することができる。
実施の形態3.
実施の形態1では、関連語のスコアとして、対象用語と同一カテゴリを持つ用語間の類似度の値を用いる形態とし、実施の形態2では、関連語のスコアとして、対象用語と同一カテゴリを持つ用語間のシソーラス上の距離を用いる例を説明したが、関連語のスコアとして関連語同士に関する値を用いる形態としても良い。
なお、実施の形態3を実現するためのコンピュータのハードウェア資源の構成は、実施の形態1と同様であるので省略する。
実施の形態1では、関連語のスコアとして、対象用語と同一カテゴリを持つ用語間の類似度の値を用いる形態とし、実施の形態2では、関連語のスコアとして、対象用語と同一カテゴリを持つ用語間のシソーラス上の距離を用いる例を説明したが、関連語のスコアとして関連語同士に関する値を用いる形態としても良い。
なお、実施の形態3を実現するためのコンピュータのハードウェア資源の構成は、実施の形態1と同様であるので省略する。
ここでは、図15を参照して、実施の形態3における動作を説明する。図15は、この発明の実施の形態3における関連語候補抽出手段1080の関連語候補計算の詳細な処理の過程を示す流れ図である。図15において、ステップ15010、15020以外の動作は、実施の形態1と同様であるので、説明を省略する。
図15において、ステップ5030までの動作は、実施の形態1と同じである。次に、図15のステップ15010では、ステップ5030で求めた関連語候補の集合Aの各要素の用語同士の類似度を用語類似度辞書1020から取り出す。
次に、ステップ15020において、ステップ5030で求めた関連語候補の集合Aの各要素の用語ajに対して、ステップ15010で求めた類似度sim(aj, aj)を、関連語候補の集合Aの各要素である用語ajのスコアscore(aj)として設定する。
なお、実施の形態3のバリエーションとして、用語ajに対応するもとの用語Pjと対象用語Piとの類似度sim(pi,pj)をステップ15010で求めた類似度sim(aj, aj)に掛けたものを関連語候補の集合Aの各要素である用語ajのスコアscore(aj)としても良い。
この実施の形態3の構成により、関連語のスコアとして関連語同士に関する値を用いることにより、用語間の関係性(部品名とその属性など)を考慮し、かつ、関連語候補同士の類似度により順位づけされた関連語の抽出を支援する装置を実現することができる
実施の形態4.
実施の形態3では、関連語のスコアとして、関連語のスコアとして関連語同士に関する値を用いる形態について説明したが、実施の形態1に対する実施の形態2のように、関連語候補同士のシソーラスに関する距離を用いる形態が考えられる。そこで、関連語のスコアとして、関連語候補と同一カテゴリを持つ用語間のシソーラス上の距離を用いる例を実施の形態4として説明する。
なお、実施の形態4を実現するためのコンピュータのハードウェア資源の構成は、実施の形態1と同様であるので省略する。
実施の形態3では、関連語のスコアとして、関連語のスコアとして関連語同士に関する値を用いる形態について説明したが、実施の形態1に対する実施の形態2のように、関連語候補同士のシソーラスに関する距離を用いる形態が考えられる。そこで、関連語のスコアとして、関連語候補と同一カテゴリを持つ用語間のシソーラス上の距離を用いる例を実施の形態4として説明する。
なお、実施の形態4を実現するためのコンピュータのハードウェア資源の構成は、実施の形態1と同様であるので省略する。
図16は、この発明の実施の形態4における関連語候補のカテゴリに関する用語(属性)シソーラスの例である。図16では、簡潔に示すために、上位下位の階層と用語のみを示しているが、用語に付随する情報が付加された形態であっても良い。
図17は、この発明における実施の形態4の関連語候補抽出手段1080での関連語候補計算ステップのフローチャートの例である。図17において、ステップ17010以外の動作は、実施の形態1と同様であるので、説明を省略する。
図17のステップ17010では、図16に示した用語シソーラス上の用語の距離によって関連語のスコアを計算する。シソーラス上の距離の計算には種々の方法があるが、ここでは、実施の形態2と同様に、シソーラスの木の高さを(m+1)としたとき、階層の下の同じ最下層のノードに属する用語(意味分類が同じ用語)間の距離を0、ある最下層に属する用語piから木をn段上方向にたどってから下方向にたどった最下層のノードに属する用語Piと間の距離dist(pi,pi)をn/mとして用いる。このとき、関連語のスコアscore(aj)を1- score(aj)として設定する。
例えば、図16に示したシソーラスの例では、最下層の意味分類「電圧」に属する用語「起動電圧」と用語「基準電圧」は距離dist(起動電圧, 基準電圧)=0である。また、最下層の意味分類「電圧」に属する用語「起動電圧」と最下層の意味分類「電流」に属する用語「起動電流」との間の距離は、シソーラスの高さが4(m=3)、木を1段たどるのでdist(起動電圧, 起動電流)=1/3であるとする。もちろん、シソーラス上の距離の定義としては他の計算式を用いても良い。
このとき、関連語候補の集合Aの要素として、「起動電圧」、「基準電圧」、「起動電流」があれば、「起動電圧」と「基準電圧」のスコアが0、「起動電流」のスコアが(1−1/3)となり、「起動電圧」と「基準電圧」が先に、「起動電流」が後に関連語候補として表示されることになる。
上記のように、この実施の形態4の構成により、対象分野の知識を反映した関連語候補同士のシソーラスを反映した距離を基にしたスコアの順番で関連語を抽出することができる。
この発明は、電子化文書の検索用関連語の抽出装置に適用され、Webサイトにおける検索絞り込み単語の提示機能や、不具合未然防止システムのチェックルール作成等に利用できる。
1010;用語辞書、1020;n項関係辞書、1030;コーパス、1040;用語類似度計算手段、1050;用語類似度辞書、1060;対象用語、1070;対象用語入力手段、1080;関連語候補抽出手段、1090;関連語候補表示手段、1100;関連語候補、2010;入力装置、2020;制御装置、2030;CPU、2040;主記憶装置、2050;2次記憶装置、2060;出力装置、2070;表示装置、2080;印刷装置、2090;記録媒体駆動装置、2100;記録媒体、2110;通信装置。
Claims (5)
- 指定した用語に関連する他の用語の抽出を支援する関連語抽出支援装置であって、
用語の見出しとその用語の意味分類が格納された用語辞書と、
用語間のn項関係を定義した用語間のn項関係辞書と、
コーパスから用語間の類似度を計算して用語類似度辞書に格納する用語類似度計算手段と、
用語辞書と、用語間n項関係辞書と、用語類似度計算手段で用語間の類似度が格納された用語類似度辞書とから、対象用語に対する関連度を基に関連語候補を抽出する関連語候補抽出手段を備えることを特徴とする関連語抽出支援装置。 - 関連語候補抽出手段における関連度として、対象用語に関するシソーラス上の距離を用いることを特徴とする請求項1記載の関連語抽出支援装置。
- 関連語候補抽出手段における関連度として、用語類似度辞書に格納された関連語候補語同士の類似度を用いることを特徴とする請求項1記載の関連語抽出支援装置。
- 関連語候補抽出手段における関連度として、関連語候補語同士のシソーラス上の距離を用いることを特徴とする請求項1記載の関連語抽出支援装置。
- コンピュータに指定した用語に関連する他の用語の抽出を支援する機能を実行させる関連語抽出支援プログラムであって、
コーパスから用語間の類似度を計算して用語類似度辞書に格納する用語類似度計算ステップと、
用語の見出しとその用語の意味分類が格納された用語辞書と、用語間のn項関係を定義した用語間のn項関係辞書と、用語類似度計算ステップで用語間の類似度が格納された用語類似度辞書とから、対象用語に対する関連語候補を抽出する関連語候補抽出ステップを備えることにより、
用語間の関係性を考慮した関連語の抽出をコンピュータに実行させることを特徴とする関連語抽出支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007150485A JP2008305078A (ja) | 2007-06-06 | 2007-06-06 | 関連語抽出支援装置および関連語抽出支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007150485A JP2008305078A (ja) | 2007-06-06 | 2007-06-06 | 関連語抽出支援装置および関連語抽出支援プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008305078A true JP2008305078A (ja) | 2008-12-18 |
Family
ID=40233772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007150485A Pending JP2008305078A (ja) | 2007-06-06 | 2007-06-06 | 関連語抽出支援装置および関連語抽出支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008305078A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622363A (zh) * | 2011-01-28 | 2012-08-01 | 鸿富锦精密工业(深圳)有限公司 | 关联词汇搜索系统及方法 |
-
2007
- 2007-06-06 JP JP2007150485A patent/JP2008305078A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622363A (zh) * | 2011-01-28 | 2012-08-01 | 鸿富锦精密工业(深圳)有限公司 | 关联词汇搜索系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9836511B2 (en) | Computer-generated sentiment-based knowledge base | |
JP5241828B2 (ja) | 辞書の単語及び熟語の判定 | |
US10025819B2 (en) | Generating a query statement based on unstructured input | |
CN105408890B (zh) | 基于声音输入执行与列表数据有关的操作 | |
TWI454943B (zh) | 一電腦實施方法及一用於自動搜尋條件校正之系統 | |
US20120330968A1 (en) | System and method for matching comment data to text data | |
US8782049B2 (en) | Keyword presenting device | |
US20090083255A1 (en) | Query spelling correction | |
KR20100052461A (ko) | 단어 확률 결정 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
JP2007072646A (ja) | 検索装置、検索方法およびプログラム | |
JP4631795B2 (ja) | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム | |
JP2020140467A (ja) | 情報処理装置及びプログラム | |
JP2008242626A (ja) | 用語登録装置 | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP2011238159A (ja) | 計算機システム | |
US20200279000A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
JP2009086903A (ja) | 検索サービス装置 | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
JP6488399B2 (ja) | 情報提示システム、及び情報提示方法 | |
JP2007128224A (ja) | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム | |
JP2009129176A (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2008305078A (ja) | 関連語抽出支援装置および関連語抽出支援プログラム | |
JP5187187B2 (ja) | 体験情報検索システム | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム |