JP2019086815A - 発想支援装置及びプログラム - Google Patents

発想支援装置及びプログラム Download PDF

Info

Publication number
JP2019086815A
JP2019086815A JP2017211774A JP2017211774A JP2019086815A JP 2019086815 A JP2019086815 A JP 2019086815A JP 2017211774 A JP2017211774 A JP 2017211774A JP 2017211774 A JP2017211774 A JP 2017211774A JP 2019086815 A JP2019086815 A JP 2019086815A
Authority
JP
Japan
Prior art keywords
verb
noun
pair
phrase
key sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017211774A
Other languages
English (en)
Inventor
尚史 北島
Takashi Kitajima
尚史 北島
晴彦 瀬戸
Haruhiko Seto
晴彦 瀬戸
小野 貴久
Takahisa Ono
貴久 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Electric Power Co Holdings Inc
Original Assignee
Tokyo Electric Power Co Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Electric Power Co Holdings Inc filed Critical Tokyo Electric Power Co Holdings Inc
Priority to JP2017211774A priority Critical patent/JP2019086815A/ja
Publication of JP2019086815A publication Critical patent/JP2019086815A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】手軽に利用でき、ユーザの発想を支援できる発想支援装置を提供する。【解決手段】文書情報を取得し、当該取得した文書情報から複数のキー文要素を抽出し、当該抽出した複数のキー文要素から、予め定めた条件を満足する一対のキー文要素を検索する。この検索の結果、見いだされた一対のキー文要素に基づいて、合成文を生成して、当該生成された合成文を出力する発想支援装置である。【選択図】図1

Description

本発明は、発想支援装置及びプログラムに関する。
近年では、情報検索のシステムが広く利用されており、ユーザが所望する情報やそれに関連する情報を簡便に検索することが可能となっている。例えば特許文献1には、与えられた文に含まれる語句を所定の規則で他の語に置換して提示することで、いわば、ユーザの課題を別の言葉で表現することとし、それにより発想を支援する例が開示されている。
特許第5716223号公報
しかしながら、上記従来の情報検索方法では、ユーザは、自らが主体的に課題を表明した文を提示する必要があり、そもそも課題が漠然としている場合などでは利用できず、また、主体的に操作を行う必要があって、手軽に利用できないという問題点があった。
本発明は上記実情に鑑みて為されたもので、手軽に利用でき、ユーザの発想を支援できる発想支援装置及びプログラムを提供することを、その目的の一つとする。
上記従来例の問題点を解決する本発明の一態様に係る発想支援装置は、複数の語を含む文を、少なくとも一つ含む文書情報を取得する取得手段と、前記取得した文書情報から複数のキー文要素を抽出する抽出手段と、前記抽出した複数のキー文要素から、予め定めた条件を満足する一対のキー文要素を検索する検索手段と、前記検索の結果、見いだされた一対のキー文要素に基づいて、合成文を生成する生成手段と、前記生成された合成文を出力する出力手段と、を含む。
本発明によると、手軽に利用でき、ユーザの発想が支援される。
本発明の実施の形態に係る発想支援装置の構成例を表すブロック図である。 本発明の実施の形態に係る発想支援装置の例を表す機能ブロック図である。 本発明の実施の形態に係る発想支援装置の動作例を表すフローチャート図である。 本発明の実施の形態に係る発想支援装置が用いる特徴量ベクトルの特性を表す説明図である。 本発明の実施の形態に係る発想支援装置のもう一つの動作例を表すフローチャート図である。
本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る発想支援装置1は、図1に例示するように制御部11と、記憶部12と、操作部13と、表示部14と、通信部15とを含んで構成されている。
ここで制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態の一例では、この制御部11は、複数の語を含む文を、少なくとも一つ含む文書情報を取得し、当該取得した文書情報から複数のキー文要素を抽出する。そして制御部11は、当該抽出した複数のキー文要素から、予め定めた条件を満足する一対のキー文要素を検索し、当該検索の結果、見いだされた一対のキー文要素に基づいて、合成文を生成して、当該生成された合成文を出力する。この制御部11の詳しい動作については後に説明する。
記憶部12は、メモリデバイスや、ディスクデバイスであり、制御部11によって実行されるプログラムを保持する。このプログラムは、コンピュータ可読、かつ非一時的な記録媒体に格納されて提供され、この記憶部12に格納されたものであってもよい。また本実施の形態の記憶部12は、制御部11のワークメモリとしても動作する。
操作部13は、マウスやキーボード等であり、ユーザが入力する指示操作の内容を受け入れて制御部11に出力する。この操作部13は、例えば文の入力指示に従い、当該入力された文のデータ等を制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従ってデータを表示出力する。
通信部15は、ネットワークインタフェース等であり、制御部11から入力される指示に従って、指示された宛先に対し、ネットワークを介して処理の要求やデータ等を送出する。またこの通信部15は、ネットワークを介して受信したデータを制御部11に出力する。
次に、制御部11の動作について説明する。本実施の形態の制御部11は、図2に例示するように、文書情報取得部21と、抽出処理部22と、検索処理部23と、生成処理部24と、出力処理部25とを機能的に含んで構成される。
文書情報取得部21は、複数の語を含む文を、少なくとも一つ含む文書情報を取得する。本実施の形態の一例では、この文書情報取得部21は、ネットワーク上のウェブサーバにアクセスして、当該ウェブサーバから複数の文書情報を取得する。また本実施の形態の別の例では、発想支援装置1は、記憶部12に予め複数の文書情報を蓄積しておき、文書情報取得部21は、当該記憶部12に蓄積された文書情報を読み出して取得する。
抽出処理部22は、文書情報取得部21が取得した文書情報のそれぞれからキー文要素を抽出する。本実施の形態の一例では、この抽出処理部22は、文書情報に含まれる文ごとに、形態素に分割する。抽出処理部22は分割して得られた形態素ごとに、少なくとも原形と品詞との情報を取得する。抽出処理部22は、文ごとに抽出した順に形態素を調べ、単独して抽出される名詞または連続して抽出される名詞の原形(連続して抽出されるときには当該名詞の原形を連接して得た文字列としてもよい)と、動詞の原形とを少なくとも取り出す。
抽出処理部22は、取り出した名詞の原形と動詞の原形とから選択される少なくとも一対の語の組み合わせを、キー文要素として抽出して出力する。
例えば、この抽出処理部22は、文書情報に「自動車用の情報機器には、音声等、運転に支障のない情報入力が必要である。」との文が含まれる場合、この文を次のように処理する。抽出処理部22は、この文を、まず形態素に分割し、
自動車,名詞(一般)
用,名詞(接尾・一般)
の,助詞(連体)
、,記号(読点)
情報機器,名詞(一般)
に,助詞(格助詞)
は,助詞(係助詞)

必要,名詞(形容動詞語幹)
だ,助動詞(「である」のうち「で」の原形)
ある,助動詞
。,記号(句点)
のように、少なくとも語の原形(活用する品詞の場合、終止形としたもの)と、品詞の情報とを得る。
本実施の形態の一例では、この抽出処理部22は、名詞が連続して出現する箇所では名詞の原形(名詞句)を連接して名詞部とする。すなわち、上述の例では、「自動車」と「用」とを連接して、「自動車用」との語を名詞部として得る。また抽出処理部22は、名詞であってもサ行変格活用する名詞に、原形「する」が連接する場合、例えば「固定される」(原形は「固定」「する」「れる」)のように、サ行変格活用する名詞「固定」に、「する」が接続している場合は、「固定」「する」までを動詞部として扱う。同様に、抽出処理部22は、形容動詞語幹の名詞に原形が「だ」である形容動詞が連接している場合は、当該形容動詞語幹の名詞+「だ」を動詞部として扱ってもよい。このようにすると、上述の例では、本実施の形態の抽出処理部22は、学術上の文法的品詞分類に関わらず、「必要だ」を、少なくとも一つの動詞句を含む動詞部として得ることとなる。
こうして抽出処理部22は、上述の例については、
名詞部:「自動車用」,「情報機器」,「音声等」,「運転」,「支障」,「情報入力」
動詞部:「必要だ」
を得る。
抽出処理部22は、これらから一対以上の語の組み合わせを、キー文要素として生成する。具体的に、生成され得るキー文要素を、ひとつずつ括弧で区切って表すと、
(「自動車用」,「情報機器」)
(「自動車用」,「音声等」)
(「自動車用」,「運転」)

(「自動車用」,「必要だ」)

(「情報入力」,「必要だ」)
といった組み合わせがキー文要素として生成される。
また、組み合わせは3以上の語を含んでもよく、例えば、抽出処理部22は、(「自動車用」,「運転」,「必要だ」)などのようなキー文要素を得てもよい。
また、この抽出処理部22は、少なくとも一つの動詞部を含む組み合わせのみを、キー文要素を得てもよい。具体的にこの例の抽出処理部22は、上述の文の例では、
(「自動車用」,「必要だ」)
(「情報機器」,「必要だ」)

といったキー文要素を生成することとなる。抽出処理部22は、このキー文要素を、抽出元となった文書情報を特定する文書特定情報に関連付けて記憶部12に格納する。ここで文書特定情報は、抽出処理部22が文書情報取得部21が取得した文書情報ごとに固有の情報として設定すればよく、例えば文書情報取得部21による文書情報の取得元のURL、あるいは文書情報取得部21が当該文書情報を取得した順序を表す連番などとすればよい。
検索処理部23は、抽出処理部22が抽出した複数のキー文要素から、予め定めた条件を満足する一対のキー文要素を検索する。一例として、この検索処理部23は、ここで条件は、一対のキー文要素に含まれる名詞部または動詞部が関連するとの条件としてもよい。
例えば、検索処理部23は、抽出処理部22が抽出したキー文要素からランダムに、あるいは所定の順序で2つ取り出して、取り出した2つのキー文要素の一方に含まれる語(名詞部または動詞部)と、他方のキー文要素に含まれる語(以下、「対比語対」と呼ぶ)とが所定の条件(例えば互いに関連するとの条件)を満足するか否かを調べる。ここで、互いに関連するとの条件は、対比語対に含まれる各語が互いに
(1)共通(同一)の語であるか、
(2)類語の関係にあるか、
(3)対義語の関係にあるか、
等の条件でよい。
なお、類語または対義語の関係にあるか否かの判断を行う検索処理部23は、予め用意された類語または対義語の辞書を参照して、当該辞書に対比語対に含まれる各語が類語または対義語の関係にあるとして含まれているか否かにより、当該対比語対に含まれる各語が類語または対義語の関係にあるか否かを判断してもよい。
また検索処理部23は、別の方法により、対比語対に含まれる各語が類語または対義語の関係にあるか否かを判断することとしてもよい。例えば検索処理部23は、語ごとの特徴量情報を用いて判断してもよい。ここで特徴量情報は例えば所定の参考文書情報(予め参考用に収集された複数の文書情報であり、文書情報取得部21が取得する文書情報に含まれていても、含まれていなくてもよい)から形態素解析により抽出された複数の語に係る機械学習処理により生成される。このような機械学習による特徴量情報の取得は、例えばword2vec(Tomas Mikolov, et.al., “Efficient Estimation of Word Representation in Vector Space”, https://arxiv.org/pdf/1301.3781.pdf)等、広く知られた方法を用いて行う。
具体的に検索処理部23がword2vecによる特徴量情報(特徴量ベクトル)を用いる場合、検索処理部23は、対比語対に含まれる各語について、予め取得された特徴量ベクトル(特徴量ベクトルが演算されていない語を含む対比語対については処理をしないこととしてもよい)を参照し、これらの特徴ベクトル間の距離が予め定めたしきい値を下回るか否かを調べることにより、類語または対義語の関係にあるか否かを調べる。word2vecでは、互いに類語または対義語の関係にある語に係る特徴量ベクトル間のコサイン距離(特徴量ベクトルの内積に比例する量)は、互いに類語または対義語の関係にない語に係る特徴量ベクトル間のコサイン距離に比べて小さくなるよう機械学習されることが知られているので、しきい値を経験的に設定すれば、一対の語が互いに類語または対義語の関係にあるか否かが判断できる。
なお、ここでは特徴量情報としてword2vecの例について述べたが、他の特徴量情報が用いられてもよい。他の特徴量情報を用いる場合、特徴量情報間の距離は、コサイン距離に限られず、特徴量情報ごとに適した距離(例えばユークリッド距離、ジャッカード係数など)に基づいて、類語または対義語の関係にあるか否かを判断することとすればよい。
検索処理部23は、一対のキー文要素に含まれる名詞部または動詞部(上述の例では、上記の対比語対に含まれる各語)が互いに関連する等の予め定めた条件が満足される一対のキー文要素が見いだされると、当該キー文要素の対を生成処理部24に出力する。
生成処理部24は、検索処理部23が出力する一対のキー文要素に基づいて合成文を生成する。ここで合成文は、必ずしも文法上の文としての体裁が整っていなくてもよく、一対のキー文要素に含まれる語を連接しただけのものであってもよい。出力処理部25は、生成処理部24が生成した合成文を、例えば表示部14に表示出力する。
[動作]
本実施の形態の一例に係る発想支援装置1は、以上の構成を備えており、次の例のように動作する。以下の例では、発想支援装置1が取得する文書情報のうち、文書情報Daに、文Sa:「自動車用の情報機器には、音声等、運転に支障のない情報入力が必要である。」なる文が含まれ、文書情報Dbに、文Sb:「X社、手を触れずに医療機器を操作できる非接触センサへの進出を目論む。」なる文が含まれ、文書情報Dcに、文Sc:「鉄道では、車掌室にある押しボタンを、モールス符号を打電するように車掌が操作することで、車掌が運転手へ危険を知らせるなどの連絡が行われている。」なる文が含まれるものとする。
発想支援装置1は、図3に例示するように、これらの文からキー文要素を抽出する(S1)。上述の例では、発想支援装置1は、例えば文書情報Daの文Saから、
キー文要素Ka:(自動車用,情報入力)
などのキー文要素を抽出し、文書情報Dbの文Sbから、
キー文要素Kb:(医療機器,非接触センサ)
などのキー文要素を抽出し、文書情報Dcの文Scから、
キー文要素Kc:(鉄道,モールス符号)
などのキー文要素を抽出する。
発想支援装置1は、互いに異なる文書情報から抽出される一対のキー文要素を例えばランダムに取り出す(S2)。例えば、発想支援装置1は、キー文要素Ka,Kbの対と、キー文要素Kb,Kcの対と…というように一対のキー文要素を抽出する。発想支援装置1は、抽出した一対のキー文要素のそれぞれから一つずつの語を取り出して、対比語対とする(S3)。例えば発想支援装置1は、キー文要素Ka,Kbの対から、
対1:(自動車用,医療機器)
対2:(自動車用,非接触センサ)
対3:(情報入力,医療機器)
対4:(情報入力,非接触センサ)
の対比語対を得る。また、発想支援装置1は、キー文要素Ka,Kbの対から、
対1:(自動車用,鉄道)
対2:(自動車用,モールス符号)
対3:(情報入力,鉄道)
対4:(情報入力,モールス符号)
の対比語対を得る。
そして発想支援装置1は、各対比語対について順次、それぞれに含まれる語が所定の条件を満足するか否か(例えば互いに類語または対義語の関係にあるか否かなど)を調べる(S4)。上述の例において発想支援装置1が、キー文要素Ka,Kbの対から得られた対比語対には、いずれも互いに類語または対義語の関係にある語が見いだせないと判断した場合には(処理S4:No)、発想支援装置1は、キー文要素Ka,Kbの対から得られた上記対比語対に基づく合成文の生成は行わない。
一方、発想支援装置1が、キー文要素Ka,Kcの対から得られた対比語対(自動車用,鉄道)に含まれる各語が互いに類語の関係にあると判断すると(処理S4:Yes)、発想支援装置1は、これらの対比語対の元となったキー文要素Ka,Kcから合成文を生成する(S5)。例えば発想支援装置1は、これらキー文要素Ka,Kcに含まれる語を(予め定めた記号を介して)連接して、
「自動車用−情報入力:鉄道−モールス符号」
のような合成文を生成して出力する(S6)。
または発想支援装置1は、含まれる各語が互いに類語の関係にある等、所定の条件を満足しているキー文要素Ka,Kcに含まれる語から一部の語を抽出して組み合わせて、
「自動車用−情報入力−モールス符号」
「自動車用−鉄道−モールス符号」
「情報入力−鉄道−モールス符号」
等、複数の合成文を生成して出力してもよい。
発想支援装置1は、以上の処理S4からS6を、処理S3で得たすべての対比語対について実行した後、処理を終了する。
この処理において出力された合成文を参照することで、ユーザは、関連性を想起しなかった複数の文(あるいは複数の文書情報)の内容を組み合わせることで、例えば「自動車用の情報入力方法として、モールス符号のような操作による情報入力方法」といった発想が支援されることとなる。
[合成文の連鎖的な生成]
また本実施の形態の発想支援装置1は、3以上のキー文要素から合成文を生成してもよい。例えば生成した合成文のもととなったキー文要素(合成済キー文要素と呼ぶ)に含まれる語と、当該生成した合成文のもととなったキー文要素の抽出元となった文書情報とは異なる文書情報から抽出されたキー文要素(追加キー文要素と呼ぶ)に含まれる語との間で、さらに対比語対を得て所定の条件を満足する場合に、合成済キー文要素と追加キー文要素とに含まれる語を連結してさらに合成文を生成してもよい。
一例として上述のキー文要素Ka,Kb,Kcを用い、キー文要素Ka,Kcに含まれる語から一部の語を抽出して組み合わせて、「自動車用−情報入力−モールス符号」なる合成文が得られているとき(合成済キー文要素はKa,Kcとなる)、キー文要素Kb「(医療機器,非接触センサ)」の「非接触センサ」の語と「情報入力」の語とが互いに類語の関係にあるとして発想支援装置1が判断すると、発想支援装置1はこのキー文要素Kbを追加キー文要素として、合成済キー文要素と追加キー文要素とに含まれる語を連結して、例えば、
「自動車用−情報入力−モールス符号−医療機器−非接触センサ」
といった合成文を生成して出力する。
この例によると、ユーザは、関連性を想起しなかった複数の文(あるいは複数の文書情報)の内容を組み合わせることで、例えば「自動車用の情報入力方法として、モールス符号のような操作を非接触センサで検出させる情報入力方法」といった発想が支援されることとなる。
[係り受け情報を用いる例]
また、ここまでの説明では、キー文要素に含まれる語の組み合わせは、文から抽出される名詞部または動詞部から任意に取り出した組み合わせとしていたが、本実施の形態はこれに限られない。
例えば発想支援装置1は、文から抽出される名詞部と動詞部との係り受け関係を分析して、係り受け関係のある名詞部または動詞部の順列(係り、受けの順とする)をキー文要素として抽出してもよい。
この場合、発想支援装置1は、さらに、一対のキー文要素から対比語対を得るときには、一方の受け側の語と、他方の係り側の語とを取り出して対比語対とすることとしてもよい。一例として文書情報Daに含まれる文Saからキー文要素Ka′が、(係り:自動車用,受け:情報入力)として抽出され、文書情報Dcに含まれる文Scからキー文要素Kc′が、(係り:モールス符号,受け:打電する)として抽出された場合、発想支援装置1は、これらのキー文要素Ka′,Kc′から対比語対を得る場合、一方の係り語と他方の受け語との対とするので、
(自動車用,打電する)
(モールス符号,情報入力)
の二つを対比語対として、これらの対とした語の間に所定の関係がある場合に、キー文要素Ka′,Kc′を組み合わせて合成文を生成する。
ここでの例で、例えば(モールス符号,情報入力)の対の語が互いに類語の関係にあるとして発想支援装置1が判断したときには、キー文要素Ka′,Kc′内の語を(所定の記号を介して)連接して、
「自動車用→情報入力→モールス符号→打電する」
というように合成文を生成して出力する。
[無関係の語の提示]
また以上の説明では、発想支援装置1は、キー文要素の対から得た対比語対に含まれる語が互いに類語または対義語の関係にある場合に、予め定めた条件が満足されたものとして、当該対となったキー文要素に基づいて合成文を生成するものとしていたが、本実施の形態はこれに限られない。
例えば本実施の形態の他の例に係る発想支援装置1は、キー文要素の対から得た対比語対に含まれる語が互いに関連性の低い語(類語でも対義語でもない語)と判断されるときに、予め定めた条件が満足されたものとして、当該対となったキー文要素に基づいて合成文を生成するものとしてもよい。
このような類語でも対義語でもない語(無関係語)であるか否かの判断も、上述のword2vecによる特徴量情報(特徴量ベクトル)を用いて行ってもよい。例えば発想支援装置1は、対比語対に含まれる各語について、予め取得された特徴量ベクトル(特徴量ベクトルが演算されていない語を含む対比語対については処理をしないこととしてもよい)を参照し、これらの特徴ベクトル間の距離が予め定めたしきい値を上回る場合に、無関係語であると判断することとしてもよい。
このように無関係語を含むキー文要素を組み合わせて合成文を生成して提示する例では、無関係語であると判断された一対の語をキーとして、インターネット上の検索エンジンを利用したウェブページの検索を行い、当該検索の結果として得られたウェブページの内容を、合成文として提示することとしてもよい。この例では、例えば、「自動車用」と、「医療機器」とが無関係語と判断された場合に、発想支援装置1は、「自動車用」と「医療機器」とを検索キーとしてインターネット上の検索エンジンに検索の要求を行う。
そして発想支援装置1は、検索エンジンの応答に含まれる情報を、合成文として提示する。これにより例えば、
「自動車用バルブの生産ノウハウ活かし、医療機器分野へ参入したY社」
のような記事がユーザに提示されることとなる。
[情報提示の例]
またここまでの説明では発想支援装置1は、処理の結果として合成文を提示することとしていたが、本実施の形態はこれに限られない。例えば本実施の形態の一例に係る発想支援装置1は、合成文とともに、当該合成文の元となったキー文要素の抽出元である文書情報を特定する情報(例えば文書情報のURL等)を併せて提示してもよい。これにより、合成文の生成根拠が明示される。
また発想支援装置1は、所定のタイミングごとに繰り返して図3に例示した処理を実行し、図3における処理S6にて表示部14に対して合成文を出力する代わりに、当該合成文を表題とした電子メールをユーザ宛に送信してもよい。この例によると、ユーザは自分が認識する課題を文章化して入力する等の操作を行うことなく、例えば発想支援装置1に対して電子メールの送信先アドレスとして自己が所持する端末で利用しているメールアドレスを設定するだけで、定期的に繰り返して発想支援のための合成文が提示されることとなり、手軽に発想支援装置1による発想支援のサービスを受けることが可能となる。
[潜在的な課題]
さらに本実施の形態のここまでの説明においては、発想支援装置1は、文書情報から抽出したキー文要素を、ランダムに、あるいは所定の順に総当たりで一対ずつ選択し、対比語対を得ることとしていたが、本実施の形態はこれに限られず、ユーザが予め指定した単語(文の入力を受けて、当該文に含まれる単語を抽出してもよい)、またはそれの類語あるいは対義語を含むキー文要素を含む、キー文要素の対を選択することとしてもよい。
また別の例では、発想支援装置1は、ユーザのウェブブラウザの閲覧履歴等を参照し、ユーザが閲覧しているウェブページに含まれる単語のうち、所定の方法で選択した重要語(例えば広く知られたtf-idf値の大きい語を重要語とするなどして選択できる)、またはそれの類語あるいは対義語を含むキー文要素を含む、キー文要素の対を選択することとしてもよい。
[キー文要素の抽出の別の例]
本実施の形態のここまでの説明では、取得した文書情報に含まれる語からキー文要素となる名詞句または動詞句等を抽出する例について説明したが、この方法では、発想の元となる文に表れる語が、元となる文書情報に含まれる語に限られてしまうこととなる。一般的には、文書情報の量が多数であるため、この点は問題にはならないが、取得した文章情報に含まれないが、そこから得られる観念を表す他の語や、取得した文書情報の量が少数であるためにキー文要素として抽出する語を豊富化したいという場合もある。そこで、本実施の形態におけるキー文要素の抽出方法は、以上に述べた方法に代えて、次のようにしてもよい。
例えば、発想支援装置1の制御部11は、本実施の形態では次のようにしてキー文要素を抽出してもよい。
制御部11は、取得した文書情報に含まれる文を形態素に分割する。そして制御部11は、分割して得られた形態素ごとに、例えば、word2vec(Tomas Mikolov, et.al., “Efficient Estimation of Word Representation in Vector Space”, https://arxiv.org/pdf/1301.3781.pdf)のように、互いに類語または対義語の関係にある語に係る特徴量ベクトル間のコサイン距離(特徴量ベクトルの内積に比例する量)は、互いに類語または対義語の関係にない語に係る特徴量ベクトル間のコサイン距離に比べて小さくなるよう機械学習された特徴量情報(以下、原文語特徴量情報と呼ぶ)を得る。なお、以下の説明では、各語の特徴量ベクトルは、規格化(大きさ「1」のベクトルと)されているものとする。
なお、このような特徴量情報は、加減算により語の意味を加減算できるとする加法則があることが知られている。例えば、「王」の語の特徴量ベクトルから「男性」の語の特徴量ベクトルを引き、さらに「女性」の語の特徴量ベクトルを加算して得たベクトルは、「女王」の語の特徴量ベクトルに近接する(コサイン距離が他の語に比べて小さくなる)ことが知られている。
そこで本実施の形態のこの例の制御部11は、原文語特徴量情報から複数の原文語特徴量情報を含む複数組の候補をランダムに選択し、それぞれの線形和を演算して、当該それぞれの線形和として得た各ベクトルに最も近い特徴量ベクトルに対応する語を、キー文要素として抽出してもよい。
一例として、制御部11は、取得した文書情報に含まれる語「自動車」と、「携帯電話」とのそれぞれに対応する特徴量ベクトルをv1,v2として、この特徴量ベクトルの組(v1,v2)の線形和のベクトル
V=α1・v1+α2・v2
を求める。なお、α1,α2のそれぞれは実数であり、制御部11がそれぞれランダムに決定する。なお、ここでは2つの語に対応する2つの原文語特徴量の線形和としたが、3以上の語に対応する3つ以上の原文語特徴量の線形和であっても構わない。
制御部11は、このベクトルVを規格化(大きさ「1」のベクトル化)し、当該規格化したベクトルVに最も近い特徴量ベクトルを有する語をキー文要素として抽出する(語と特徴量ベクトルとを関連付けたデータベースを参照して抽出する。このデータベースは、word2vec等によって生成されるものであり、広く知られているのでここでの詳しい説明は省略する)。
制御部11は、この処理を、候補とした原文語特徴量情報の各組について行い、各組に対応して得られたキー文要素を取得して、以下、検索処理部23としての処理に供する。
この例によると、原文に含まれる語の概念間にある語が、キー文要素として抽出されることが期待される(図4(P))。しかしながら、語の豊富化を求めるのであれば、さらに広く、取得した文書情報に含まれる語の特徴量ベクトル(の線形和)に近接しつつ、しかしながら、この線形和としては表現できないベクトルの語も、キー文要素として含めることがより好適である場合もある。
そこで、本実施の形態では制御部11がさらに、次の処理(ベクトル更新処理と呼ぶ)を行ってもよい。すなわち、制御部11は、候補とした原文語特徴量情報の各組について上述の処理により得た線形和のベクトルV1,V2…について、
(1)一対の線形和ベクトルVi,Vjの成分の少なくとも一つを交換する。すなわち、
Vi=(a1,a2…,aN)なるベクトルであり、
Vj=(b1,b2…,bN)なるベクトルであるとき、1以上N以下の整数値pをランダムに決定して、
V′i=(a1,…,ap-1,bp,ap+1,…aN)、
V′j=(b1,…,bp-1,ap,bp+1,…bN)、
とする。
(2)線形和ベクトルViの成分の一つを、所定の方法で異なる値とする。すなわち、Vi=(a1,a2…,aN)なるベクトルについて、1以上N以下の整数値pをランダムに決定して、
V′i=(a1,…,ap-1,xp,ap+1,…aN)、
(ただし、xpは一般にapとは異なる値)
(3)任意の一対の線形和ベクトルViとVjとの間で、所定の評価値(大小関係が定まる、スカラ量等の値)Ei,Ejをそれぞれ演算し、Ei>Ejであれば、
Vj=Vi
とする、
の操作を適宜行う。
以下、便宜的に、(1)の処理をクロスオーバ、(2)の処理をミューテーション、(3)の処理を(ベクトルVi,Vj間での)テイクオーバと呼び、この処理について具体的に説明する。
制御部11は、図5に例示するように次の処理を繰り返し行う。すなわち制御部11は、候補とした原文語特徴量情報の各組について上述の処理により得た線形和のベクトルV1,V2…のそれぞれを順次、注目ベクトルとして選択しつつ、クロスオーバを実行するか否かを判断する(S11)。この判断は、0以上1以下の乱数を発生させ、当該乱数が、予め定められたクロスオーバ発生確率以下であればクロスオーバの処理を実行することで行う。
制御部11は、クロスオーバを実行すると判断したときには(S11:Yes)、その時点で選択されている注目ベクトルViと異なる線形和ベクトルVjをランダムに選択し、当該ランダムに選択された線形和ベクトルVi,Vjの組についてクロスオーバを実行する(S12)。なお、クロスオーバを実行しないと判断したときには(S11:No)、制御部11は、処理S12を行わずに、次の処理S13に移行する。
そして制御部11は、注目ベクトルについてミューテーションの処理を実行するか否かを判断する(S13)。この判断も、0以上1以下の乱数を発生させ、当該乱数が、予め定められたミューテーション発生確率以下であればミューテーションの処理を実行することで行う。そして制御部11は、ミューテーションを実行すると判断したときには(S13:Yes)、その時点で選択されている注目ベクトルViについてミューテーションを実行する(S14)。なお、ミューテーションを実行しないと判断したときには(S13:No)、制御部11は、処理S14を行わずに、次の処理S15に移行する。
制御部11は、線形和のベクトルV1,V2…のすべてについて注目ベクトルとして選択したとき(S15)には(注目ベクトルとして選択されていない線形和ベクトルがなくなると)、各線形和ベクトル(クロスオーバ、ミューテーションの処理を行ったものは処理後のもの)の評価値を所定の方法で演算する(S16)。
なお、処理S15において線形和のベクトルV1,V2…に注目ベクトルとして選択していないベクトルがあれば、制御部11は、当該選択していない線形和ベクトルの一つを注目ベクトルとして選択して処理S11に戻って処理を続ける。
処理S16における評価値は例えば、各線形和ベクトルに最も近い、いずれかの語の特徴量ベクトルまでのコサイン距離の逆数としてよい。この場合、特徴量ベクトルが演算されている語に最も近いベクトルが比較的評価の高いベクトルとして扱われる。
また、この評価値は、例えば、最も近い特徴量ベクトルに対応する語の品詞に基づいて定めてもよい。例えば、当該品詞が固有名詞である場合は、評価値を、演算により得られる評価値の最低値に設定してもよい。この場合、固有名詞の語に近いベクトルは、評価値が最低値として設定される。
制御部11は、評価値が演算されると、次の方法でテイクオーバ処理を実行する(S17)。すなわち制御部11は、各線形和ベクトルを評価値が高いものから順に配列し、線形和ベクトルの数Mのうち、評価値が比較的高い上位1/2([M/2]個のベクトル、ただし[x]はxを超えない最大の整数とする)を選択する。そして選択されていない線形和ベクトルを、選択した線形和ベクトルで置き換えるテイクオーバ処理を実行する。一例として、
K=2×k
として、評価値順に並べた線形和ベクトルの上位からk番目(1≦k≦[M/2])を逐次的に選択しつつ、Vk,VK間でテイクオーバの処理を行う。
なお、評価値順に並べた線形和ベクトルの下位M−[M/2]個のベクトルのうち、上記の処理でテイクオーバされなかったベクトルVについては、制御部11は、上位k番目のベクトルのいずれか、例えばV1(最上位のベクトル),V間でテイクオーバ処理を実行してもよい。
制御部11は、この処理(クロスオーバ、ミューテーション、テイクオーバの各処理)を予め定めた回数だけ繰り返して行う(S18)。
そして制御部11は、当該処理後の線形和のベクトル(テイクオーバの処理のため、互いに異なるベクトルは最大で[M/2]個となるが、最終回はテイクオーバの処理を行わず、最大でM個の互いに異なるベクトルを得てもよい)をそれぞれ規格化(大きさ「1」のベクトル化)し、当該規格化した各ベクトルに最も近い特徴量ベクトルを有する語をキー文要素として抽出することとしてもよい(S19)。
さらに、この例においては概念的に共通するキー文要素が複数得られる場合もある。そこで、この例では、さらに得られたキー文要素を、所定の方法(例えばK-meansや、agglomerative classification等の方法)によって所定数のクラスに分類し、各分類により得られたクラスからそれぞれ一つの語を選択して(例えばランダムに選択してよい)、キー文要素としてもよい。
この例では、発想支援装置1は、取得した文書情報から、「自動車」、「電話」…等の語を得た後、これらの語の特徴量ベクトルから、その線形和のベクトルを求め、そこから各線形和のベクトルの成分を所定の規則に従ってランダムに、あるいは他のベクトルの成分に近接させるように更新して、新たな線形和ベクトルとする。
そして発想支援装置1は、得られた線形和ベクトルを所定の方法で定めた評価方法で評価し、評価の比較的低い線形和ベクトルを消去して新たな線形和ベクトルを得る。
このとき、得られる線形和ベクトルは、例えば「自動車」と「電話」とを組み合わせて得られる「携帯電話」等の語の特徴量ベクトルだけでなく、これに近い成分を有しつつ、「自動車」や「電話」とは全く異なる「電池」等の語の特徴量ベクトルが偶発的に現れ得ることが期待される。
発想支援装置1は、この成分の更新と、評価により新たな線形和ベクトルを得る処理とを繰り返して実行し、得られた線形和ベクトルについて、それぞれに最も近い特徴量ベクトルを有する語を選択する。そして発想支援装置1は、当該語をクラス分類して、各クラス分類結果からそれぞれ一つ以上の語を選択して、キー文要素とする。これにより、偶発的に得られる語をキー文要素として選択し、発想の支援を行うことが可能となる。
[別の利用例]
なお、上記のベクトル更新処理により得られたキー文要素は、それ自体、偶発的に選択された語を含むため、元の文書情報に含まれない語を含んでいる場合がある。そこで、本実施の形態の一例に係る発想支援装置1は、当該キー文要素から合成文を作成する処理に代えて、当該キー文要素をそのまま検索キーとして用いて、ウェブ上の検索エンジン等、キーワード検索エンジンから、文書を検索してもよい。
この場合、発想支援装置1は、当該検索の結果、得られた文書を特定する情報(URL)または、当該文書の要約や抜粋、あるいは当該文書そのものをユーザに提示してもよい。
1 発想支援装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 通信部、21 文書情報取得部、22 抽出処理部、23 検索処理部、24 生成処理部、25 出力処理部。

Claims (7)

  1. 複数の語を含む文を、少なくとも一つ含む文書情報を取得する取得手段と、
    前記取得した文書情報から複数のキー文要素を抽出する抽出手段と、
    前記抽出した複数のキー文要素から、予め定めた条件を満足する一対のキー文要素を検索する検索手段と、
    前記検索の結果、見いだされた一対のキー文要素に基づいて、合成文を生成する生成手段と、
    前記生成された合成文を出力する出力手段と、
    を含む発想支援装置。
  2. 請求項1記載の発想支援装置であって、
    前記抽出手段は、前記取得した文書情報に含まれる文のそれぞれから、名詞句を含む名詞部と、動詞句を含む動詞部とを抜き出して、当該抜き出した少なくとも一対の前記名詞部と動詞部とを含んだ文要素を、キー文要素として抽出し、
    前記検索手段が用いる前記条件は、一対のキー文要素に含まれる名詞部または動詞部が互いに所定の関連を有する条件である発想支援装置。
  3. 請求項2記載の発想支援装置であって、
    前記名詞句または動詞句ごとに、予め演算されている特徴量ベクトルを取得し、一対の前記名詞部または動詞部が所定の関連を有する条件として、各名詞部または動詞部に含まれる一対の名詞句または動詞句の各特徴量ベクトル間の距離情報が予め定めたしきい値を下回るときに、当該名詞句または動詞句が互いに所定の関連を有すると判断する発想支援装置。
  4. 請求項2記載の発想支援装置であって、
    前記名詞句または動詞句ごとに、予め演算されている特徴量ベクトルを取得し、一対の前記名詞部または動詞部が所定の関連を有する条件として、各名詞部または動詞部に含まれる一対の名詞句または動詞句の各特徴量ベクトル間の距離情報が予め定めたしきい値を上回るときに、当該名詞句または動詞句が互いに所定の関連を有すると判断する発想支援装置。
  5. 請求項1に記載の発想支援装置であって、
    前記抽出手段は、
    前記取得した文書情報に含まれる文のそれぞれから、名詞句を含む名詞部と、動詞句を含む動詞部とを抜き出すとともに、当該名詞句または動詞句ごとに、予め演算されている特徴量ベクトルを取得し、
    前記取得した特徴量ベクトルに含まれる特徴量ベクトル間の加重平均ベクトル近傍の特徴量ベクトルを有する語を、複数のキー文要素として抽出する発想支援装置。
  6. 複数の語を含む文を、少なくとも一つ含む文書情報を取得する取得手段と、
    前記取得した文書情報に含まれる文のそれぞれから、名詞句を含む名詞部と、動詞句を含む動詞部とを抜き出すとともに、当該名詞句または動詞句ごとに、予め演算されている特徴量ベクトルを取得し、前記取得した特徴量ベクトルに含まれる特徴量ベクトル間の加重平均ベクトル近傍の特徴量ベクトルを有する語を、複数のキー文要素として抽出する抽出手段と、
    当該抽出したキー文要素に関わる文書情報を検索する検索手段と、
    当該検索の結果を出力する出力手段と、
    を含む発想支援装置。
  7. コンピュータを、
    複数の語を含む文を、少なくとも一つ含む文書情報を取得する取得手段と、
    前記取得した文書情報から複数のキー文要素を抽出する抽出手段と、
    前記抽出した複数のキー文要素から、予め定めた条件を満足する一対のキー文要素を検索する検索手段と、
    前記検索の結果、見いだされた一対のキー文要素に基づいて、合成文を生成する生成手段と、
    前記生成された合成文を出力する出力手段と、
    として機能させるプログラム。

JP2017211774A 2017-11-01 2017-11-01 発想支援装置及びプログラム Pending JP2019086815A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017211774A JP2019086815A (ja) 2017-11-01 2017-11-01 発想支援装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017211774A JP2019086815A (ja) 2017-11-01 2017-11-01 発想支援装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2019086815A true JP2019086815A (ja) 2019-06-06

Family

ID=66764184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017211774A Pending JP2019086815A (ja) 2017-11-01 2017-11-01 発想支援装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2019086815A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020218513A1 (ja) 2019-04-26 2020-10-29 株式会社前川製作所 特徴点の認識システムおよび認識方法
JP7396168B2 (ja) 2020-03-31 2023-12-12 コニカミノルタ株式会社 発想支援装置、発想支援システム及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020218513A1 (ja) 2019-04-26 2020-10-29 株式会社前川製作所 特徴点の認識システムおよび認識方法
JP7396168B2 (ja) 2020-03-31 2023-12-12 コニカミノルタ株式会社 発想支援装置、発想支援システム及びプログラム

Similar Documents

Publication Publication Date Title
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
US11868386B2 (en) Method and system for sentiment analysis of information
CN108287858B (zh) 自然语言的语义提取方法及装置
KR102020756B1 (ko) 머신러닝을 이용한 리뷰 분석 방법
US8635061B2 (en) Language identification in multilingual text
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
US11651015B2 (en) Method and apparatus for presenting information
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN113569011A (zh) 文本匹配模型的训练方法、装置、设备及存储介质
JP6346367B1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
US11436278B2 (en) Database creation apparatus and search system
Sales et al. A compositional-distributional semantic model for searching complex entity categories
CN117112754A (zh) 信息处理方法、装置、电子设备及存储介质
Song et al. Semi-automatic construction of a named entity dictionary for entity-based sentiment analysis in social media
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
JP2019086815A (ja) 発想支援装置及びプログラム
Soliman et al. Utilizing support vector machines in mining online customer reviews
JP6846666B2 (ja) 翻訳文生成方法、翻訳文生成装置及び翻訳文生成プログラム
CN110543546B (zh) 一种工业设备中的隐患问题查询方法和装置
CN112182159B (zh) 一种基于语义表示的个性化检索式对话方法和系统
CN115098668A (zh) 一种文档排序方法、排序装置、电子设备和存储介质
CN114090778A (zh) 基于知识锚点的检索方法、装置、电子设备及存储介质