JP2012008948A - 類似性導出装置および類似性導出プログラム - Google Patents

類似性導出装置および類似性導出プログラム Download PDF

Info

Publication number
JP2012008948A
JP2012008948A JP2010146515A JP2010146515A JP2012008948A JP 2012008948 A JP2012008948 A JP 2012008948A JP 2010146515 A JP2010146515 A JP 2010146515A JP 2010146515 A JP2010146515 A JP 2010146515A JP 2012008948 A JP2012008948 A JP 2012008948A
Authority
JP
Japan
Prior art keywords
character string
information
morpheme
normalization
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010146515A
Other languages
English (en)
Inventor
Masashi Osumi
昌志 大角
Yoshio Nozawa
義雄 野澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2010146515A priority Critical patent/JP2012008948A/ja
Publication of JP2012008948A publication Critical patent/JP2012008948A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】新規に入力された文字列と既登録文字列との実質的な内容の類似の度合いをより容易に判断できる情報を提供する。
【解決手段】支援システム1では、新規入力情報41が入力されると、既に不具合情報記録部50に登録されている既登録情報51の中で、新規入力情報41に類似する情報が検索される。そして、新規入力情報41に類似する既登録情報51(既登録類似情報52)に含まれる構成要素であって、正規化後の新規入力情報41(正規化済新規入力情報42)に含まれていない構成要素が、補足条件として示される。
【選択図】図1

Description

本発明は、類似性導出装置および類似性導出プログラムに関し、特に、入力された文字列について、予め記憶された文字列との類似の度合いを決定する類似性導出装置および類似性導出プログラムに関する。
サーバ等にすでに記憶された文書や情報の検索に関する技術が種々開示されている。
たとえば、特許文献1には、文書類似性導出装置において、自然言語で記述された文字列を入力された場合に、当該文字列と記憶された文書のそれぞれについて、出現する索引語のTF/IDF(Term Frequency Inverse Document Frequency)による重みを要素としたTF/IDFベクトルを求め、また、形態素解析により得られた体言と用言についてそれらが共起した用言の頻度を要素とした共起ベクトルを求め、そして、上記文字列のTF/IDF文書ベクトル及び共起ベクトルと上記文書のTF/IDF文書ベクトル及び共起ベクトルから上記文字列と上記文書の類似性を求める技術が開示されている。
また、上記検索に関する技術として、検索のための文字列の入力を受付ける場合に、入力を補助する情報を提供する技術についても種々開示されている。たとえば、特許文献2には、過去の検索キーワードに基づいて、新規に入力された文字列を詳細化するための候補を提示する技術が開示されている。
特開2008−123111号 特表2008−520037号
ここで、ソフトウェアのテスト工程などで発見された不具合が登録される不具合データベースなど、入力される文字列について、当該文字列をキーワードとした検索と、当該文字列の登録とを行なうことを想定されたシステムが、従来から存在している。
このようなシステムでは、新規な文字列が入力された場合、当該新規な文字列と同一ではないが内容が重複したが文字列が既に登録されている場合には、その登録を回避するため、当該新規な文字列が内容において重複する既登録文字列を検索結果として提示し、当該新規な文字列の登録を抑制することが好ましい。
しかしながら、特許文献1に記載の技術では、新規に入力された文字列と既登録文字列との間で、特徴的な単語が抽出されて類似性が判断されるため、既登録文字列の形態素と新規な文字列において用いられている単語が同一でなければ、内容的に近くても、類似性が低く判断される場合があり、当該新規な文字列の登録の抑制につながらない場合があった。
また、特許文献2に記載の技術では、入力された新規な文字列が既登録文字列と一字でも異なれば、候補の提示をすることができない。したがって、新規な文字列が入力された場合に該文字列と実質的に内容の重複する文字列が既に登録されていても、当該既登録文字列を提示することができず、上記した重複登録を抑制することはできなかった。
本発明は、かかる実情に鑑み考え出されたものであり、その目的は、新規に入力された文字列と既登録文字列との実質的な内容の類似の度合いをより容易に判断できるようにする情報を提供できる類似性導出装置および類似性導出プログラムを提供することである。
本発明に従った類似性導出装置は、第1の文字列を入力される入力手段と、第1の文字列の形態素と文字列記憶装置に記憶された複数の第2の文字列のそれぞれの形態素とを比較することにより、第1の文字列に類似する第2の文字列を選択する選択手段と、選択手段によって選択された第2の文字列に含まれている形態素であって第1の文字列に含まれていない形態素を抽出する抽出手段と、抽出手段によって抽出された形態素を表示する表示手段とを備える。
また、本発明の類似性導出装置は、第1の文字列の形態素を正規化する正規化手段をさらに備え、選択手段は、正規化手段によって正規化された第1の文字列の形態素と、正規化手段によって正規化された第2の文字列の形態素とを比較することにより、第1の文字列に類似する第2の文字列を選択することが好ましい。
また、本発明の類似性導出装置は、第1の形態素と、正規化により第1の形態素に置き換えられる第2の形態素とを関連付ける情報を記憶する関連情報記憶装置と通信可能な通信手段をさらに備え、正規化手段は、第1の文字列に含まれる第2の形態素を、情報において当該第2の形態素に関連付けられている第1の形態素に置き換えることにより、第1の文字列を正規化することが好ましい。
また、本発明の類似性導出装置では、正規化手段は、第2の文字列に含まれる第2の形態素を、情報において当該第2の形態素に関連付けられている第1の形態素に置き換えることにより、第2の文字列を正規化し、第1の文字列を、正規化後の第1の文字列に含まれる、正規化後の第2の文字列の第1の形態素と同一の形態素を、正規化前の第2の文字列の第2の形態素に置き換えることにより作成した第3の文字列に変換する変換手段をさらに備え、抽出手段は、第2の文字列に含まれている形態素であって、第3の文字列に含まれていない形態素を抽出することが好ましい。
また、本発明の類似性導出装置では、第1の文字列および第2の文字列は、不具合情報に関する記述であることが好ましい。
本発明に従った類似性導出プログラムは、文字列記憶装置に通信可能なコンピュータに、第1の文字列の入力を受付けるステップと、第1の文字列の形態素と文字列記憶装置に記憶された複数の第2の文字列のそれぞれの形態素とを比較することにより、第1の文字列に類似する第2の文字列を選択する選択手段と、選択手段によって選択された第2の文字列に含まれている形態素であって第1の文字列に含まれていない形態素を抽出するステップと、抽出された形態素を表示するステップとを実行させる。
上記構成によれば、入力された文字列とすでに登録されている文字列について、それらの形態素が比較されることにより得られる、後者の文字列に含まれていて前者の文字列に含まれていない形態素が、表示される。
これにより、新規な文字列を入力したユーザは、既に登録されている文字列と自己が入力した文字列の相違点を明確に認識できる。
したがって、新規に入力された文字列を入力したユーザは、当該新規な文字列と既登録文字列との内容的な類似の度合いを容易に判断できる。
本発明の類似性導出装置の一実施の形態である支援システムの機能ブロック図である。 図1の支援システムのハードウェア構成を模式的に示す図である。 図1の類似文書検索部の処理の一例を示すフローチャートである。 図1の類似文書検索部が実行する処理の一例を示すフローチャートである。 図1の補足条件抽出部が実行する処理の一例を示すフローチャートである。 図1の類似文書検索部および補足条件抽出部において生成される情報を説明するための図である。 図1の類似文書検索部および補足条件抽出部において生成される情報を説明するための図である。 図1の類似文書検索部および補足条件抽出部において生成される情報を説明するための図である。 図1の構成要素正規化用類語テーブルの具体例を示す図である。 図4の類似文書検索処理を説明するための図である。 図5の処理を説明するための図である。 図5の処理を説明するための図である。 図5の処理を説明するための図である。 図1の支援システムによって表示される画面の一例を示す図である。 図1の支援システムの変形例によって表示される画面の一例を示す図である。 図9の構成要素正規化用類語テーブルの変形例を示す図である。 図16の構成要素正規化用類語テーブルを用いた新規入力情報例Aと既登録情報例Bの正規化の結果を模式的に示す図である。 図16の構成要素正規化用類語テーブルを用いたB化Aの生成を説明するための図である。 図16の構成要素正規化用類語テーブルを用いた補足条件の生成を説明するための図である。
以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では同一の部品には同一の符号が付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰返さない。
以下、本発明の類似性導出装置の一実施の形態である支援システムの具体的な例を、図を用いて説明する。なお、本実施の形態の支援システムは、不具合情報の入力の際に利用されるシステムであって、入力された文字列に対して詳細な条件を補足することを目的としたものである。なお、本発明は、当該目的を有するシステムに限定されず、入力された文字列に対して、既に登録されている文字列との類似の度合い等を提示する装置であれば、いかなる装置にも適用することができる。
[1.支援システムの概略構成]
図1は、本発明の一実施形態である支援システムの機能ブロック図である。
支援システム1は、新規に入力された不具合情報である新規入力情報41を受け取る類似文書検索部2を持つ。また、類似文書検索部2は既登録の不具合情報を記録している不具合情報記録部50から、登録されているすべての既登録情報51を受け取る。
不具合情報記録部50は、支援システム1に対する外部の装置に存在しても良いし、支援システム1の構成要素とされる記憶装置内に存在していてもよい。外部の装置に存在する場合、支援システム1は、当該外部の装置と通信することにより、既登録情報51を取得する。
類似文書検索部2は、受け取った新規入力情報41および既登録情報51を構成する要素を解析し、個々の不具合情報について1つ以上の構成要素の集合を抽出する構成要素解析部21を持つ。構成要素解析部21は、たとえば既存の技術を利用した形態素解析により、不具合情報を構成する要素(形態素)を解析する。なお、既登録情報51が既に要素の解析がなされた形態で不具合情報記録部50に記録されている場合には、構成要素解析部21は、新規入力情報41の要素の解析のみを行なう。
また、類似文書検索部2は、構成要素解析部21で抽出された構成要素の集合に対し、要素表現の揺れを抑制するため、構成要素を正規化する構成要素正規化部22を含む。構成要素正規化部22は、正規化用テーブル記録部60から、構成要素正規化用類語テーブル61を受け取る。構成要素正規化用類語テーブル61は、構成要素の代表となる要素と、正規化により当該代表となる要素に変換される構成要素とを、集合として持つ。正規化用テーブル記録部60は、支援システム1に対して外部の装置に存在していても良いし、支援システム1を構成する記憶装置内に存在していても良い。外部の装置に存在する場合には、支援システム1は、当該外部の装置と通信することにより、構成要素正規化用類語テーブル61を取得する。そして、構成要素正規化部22は、新規入力情報41の構成要素を正規化することにより正規化済新規入力情報42を生成し、既登録情報51の構成要素を正規化することにより正規化済既登録情報(図示略)を生成する。
また、類似文書検索部2は、判定部23を有する。判定部23は、正規化済新規入力情報42と正規化済既登録情報を比較することにより、新規入力情報41に類似する既登録情報51を、1つ以上、既登録類似情報52として出力する。また、判定部23は、後述する既登録情報変換用情報53を出力する。
また、支援システム1は、補足条件抽出部3を含む。補足条件抽出部3は、正規化済新規入力情報42と、1つ以上の既登録類似情報52と、当該既登録類似情報52に対応した既登録情報変換用情報53とを受け取り、既登録類似情報52に含まれていて新規入力情報41に含まれていない、文書構成要素の補足条件を抽出する。正規化済新規入力情報42と、既登録類似情報52と、既登録情報変換用情報53は、類似文書検索部2から出力されるものである。なお、補足条件の抽出の詳細については、後述する。
また、支援システム1は、既登録類似情報52と、補足条件抽出部3から得られた補足条件とを、表示部70に表示する。
[2.支援システムのハードウェア構成]
図2は、支援システム1のハードウェア構成を模式的に示す図である。
図2を参照して、支援システム1を構成するコンピュータ100は、処理装置902、記憶装置903、ROM(Reed Only Memory)904、RAM(Random Access Memory)905、表示装置906、入力装置907、および、ネットワークインターフェース(I/F)908とを備えている。これらの各要素は、バス901によって互いに接続されている。
処理装置902は、CPU(Central Processing Unit)などのプロセッサを含む。当該プロセッサ(処理装置902)が記憶装置903に記憶されたプログラムを実行することにより、処理装置902は、類似文書検索部2および補足条件抽出部3として機能する。なお、処理装置902が実行するプログラムは、必ずしも記憶装置903に記憶されていなくてもよく、処理装置902を含むコンピュータに着脱可能に構成された記録媒体に記録されていても良く、支援システム1がネットワークに介して通信可能な記憶装置に記憶されていても良い。
RAM905は、処理装置902のワークエリアとなる。表示部70(図1参照)は、表示装置906によって実現されても良いし、支援システム1に対する外部の表示装置によって実現されても良い。入力装置907は、キーボードやマウス、タッチパネル等の、情報を入力するための周知の装置である。
[3.支援システムの動作]
次に、支援システム1の動作の例を、図3〜図5を参照して説明する。
[3−1.類似文書検索部の動作]
図3および図4は、支援システム1の内、類似文書検索部2の処理の一例を示すフローチャートである。
図3を参照して、類似文書検索部2は、まず、入力装置907またはネットワークI/F908を介して入力される、新規入力情報を取得する(ステップS1)。
次に、新規入力情報に含まれる構成要素を単語や品詞の組合せなどから分析をしておのおのの構成要素に分解する(ステップS2)。当該分解は、たとえば周知の形態素解析の技術が採用されて、実現される。
さらに、分解された構成要素に対して、比較を行なう際に表現の揺らぎを押さえるために正規化を行ない(ステップS3)、正規化済新規入力情報O4を生成する。正規化済新規入力情報O4は、たとえばRAM905に記録される。
また、類似文書検索部2は、不具合情報記録部50から既登録情報を取得する(ステップS11)。
さらに、既登録情報に含まれる構成要素を単語や品詞の組合せなどから分析をしておのおのの構成要素に分解する(ステップS12)。ここで、既登録情報を分解されたものが既に不具合情報記録部50に記録されている場合には、ステップS12では、当該分解された構成要素を受け取る。
そして、既登録情報の分解された構成要素に対して、比較を行なう際に表現の揺らぎを押さえるために正規化を行ない(ステップS13)、正規化済既登録情報O101を生成する。そして、正規化済既登録情報O101と、既登録情報変換用情報O102と、既登録情報O103との組合せを、たとえばRAM905に記録する。
さらに、すべての既登録情報の構成要素への分解(または構成要素の取得)と正規化が終了した場合は(ステップS14のYES)、すべての既登録情報についての、正規化済既登録情報O106と既登録情報変換用情報O107と既登録情報O108の組合せを、たとえばRAM905に記録させる。すべての正規化済既登録情報O106と既登録情報変換用情報O107と既登録情報O108の組合せは、あらかじめ作成しておき不具合情報記録部50などに記録されているものを使用してもかまわない。
この時、すべての既登録情報の構成要素への分解と正規化が終了していない場合は(ステップS14のNO)、ステップS11に戻り、次の既登録情報の構成要素への分解と正規化の処理(ステップS11〜ステップS14)を繰り返す。
図4を参照して、次に、類似文書検索部2は、正規化済新規入力情報O4と、すべての正規化済既登録情報O106とを比較することにより、正規化済新規入力情報O4に対応する新規入力情報と、正規化済既登録情報O106に対応する既登録情報とが、類似文書かどうかを判定する(ステップS21)。ステップS21では、すべての正規化済既登録情報O106が順次処理対象とされ、正規化済新規入力情報O4と比較される。ここでの比較は、たとえば、両情報の中の構成要素の出現回数を比較したり、構成要素のTF/IDF重み付けにより類似性を算出したりすることにより、実現される。また、この処理は、すべての既登録情報から、新規入力情報に対する類似文書を検索する処理に相当する。
類似文書として判定された既登録情報については(ステップS22のYES)、類似文書検索部2は、それぞれ、既登録情報変換用情報O107と既登録情報O108と正規化済既登録情報O106の組合せが既登録情報変換用情報O202として、既登録情報O108を既登録情報O203として、たとえばRAM905に記録させる。一方、類似文書として判定されない既登録情報については(ステップS22のNO)、既登録情報変換用情報O202等の記録はなされない。
そして、すべての正規化済既登録情報O106について類似文書の検索が終了すると(ステップS23のYES)、すべての既登録情報変換用情報O207と、すべての既登録情報O208をたとえばRAM905に記録させ、図3および図4に記載の処理を終了させる。なお、すべての正規化済既登録情報O106の類似文書検索が終了していない場合は(ステップS23のNO)は、ステップS21に戻り、残りの正規化済既登録情報O106の1つについて、ステップS21〜ステップS23の処理を繰り返す。
[3−2.補足条件抽出部の動作]
図5は、支援システム1の内、補足条件抽出部3の処理の一例を示すフローチャートである。
まず、補足条件抽出部3は、正規化済新規入力情報O4の構成要素を、既登録情報変換用情報O207の1つ(たとえば、最も類似の度合いが高いと判断された既登録情報に対応するもの)を用いて、正規化する前の既登録情報の構成要素に変換する(ステップS31)。これにより、後述する「B化A」が生成される。この処理は、正規化済新規入力情報O4が、複写されて、RAM905に記録された後、行なわれる。
さらに、前記既登録類似不具合情報の構成要素に変換された新規入力情報と、既登録情報O208に含まれる各既登録情報O203とを比較し、新規入力情報に不足する補足条件を抽出する(ステップS32)。当該補足条件の抽出の詳細は、後述する。
さらに、抽出された補足条件は、表示部70を介して、新規入力情報を入力した者に提示される(ステップS33)。
そして、既登録情報O208に含まれるすべての既登録情報O203からの、補足条件の抽出が終了した場合は(ステップS34のYES)、図5に示された処理を終了させる。
なお、既登録情報O208の中で、処理対象とされていない既登録情報O203がある場合には(ステップS34のNO)、ステップS31に戻り、すべての既登録情報O203が処理対象とされるまで、ステップS31〜ステップS34を繰り返す。
[4.正規化済新規入力情報/正規化済既登録情報]
ここで、図6〜図8を参照して、類似文書検索部2および補足条件抽出部3において生成される情報を説明する。図6は、新規入力情報の例を示す。図7および図8は、それぞれ既登録情報の例を示す。
なお、図6では、情報101は新規入力情報の具体例を示し、情報102は情報101の新規入力情報が分解されることによって得られた構成要素を示し、情報103は情報102に示された構成要素が正規化されたものを示す。
また、図7および図8では、情報111,121は既登録情報の具体例を示し、情報112,122は情報111,121のそれぞれの既登録情報が分解されることによって得られた構成要素を示し、そして、情報113,123は情報112,122のそれぞれに示された構成要素が正規化されたものを示す。
ステップS1(図3)において取得された新規入力情報例A(情報101)は、構成要素解析部21が実行するステップS2により解析されて、図6の情報102として示されたように、「キー」「押す」「リセット」「する」という4つの構成要素に分解される。
さらに、これらの4つの構成要素は、構成要素正規化部22が実行するステップS3によって、構成要素正規化用類語テーブル61に記録されている正規化要素に置き換えられることにより、図6に情報103として示されるように、「キー」「押す」「リセット」「する」へと変換される。このような構成要素正規化用類語テーブル61に記録されている正規化要素を用いた変換を、正規化という。
図9は、構成要素正規化用類語テーブル61の構成を模式的に示す。図9を参照して、構成要素正規化用類語テーブル61では、変換後の構成要素X(“キー”)が、変換前の構成要素Ax(“キー”),Bx(“ボタン”),…と関連付けられた組合せ151を含む。構成要素正規化用類語テーブル61は、複数の「変換後の構成要素」に関する、図9に示されたような組合せ151を含む。上記正規化では、新規入力情報に含まれる構成要素が、組合せ151における変換前の構成要素に一致する場合には、当該構成要素は、当該組合せ151の変換後の要素単語に変換される。上記正規化要素は、図9の変換後の構成要素に対応する。
なお、正規化では、構成要素正規化用類語テーブル61において、変換前の構成要素に含まれない構成要素は、そのまま、変換後の構成要素として出力される。
図7では、情報111として示された、既登録情報例Bの「ボタンを123の順に押すと、電源が切れ再起動する。」という不具合情報を表す文字列が解析されることにより、情報112として示されているように、「ボタン」「123の順」「押す」「電源切れ」「再起動」「する」という6つの構成要素に分解される。そして、正規化により、これらの構成要素の中の一部が変換されて、「キー」「123の順」「押す」「電源断」「リセット」「する」という6つの構成要素からなる正規化済既登録情報が生成される。
なお、正規化による変換前の構成要素がどのような構成要素に変換されたか(たとえば、「ボタン」→「キー」)という情報が、既登録情報変換用情報O102として記録される。図7では、既登録情報変換用情報O102に含まれる変換前の構成要素が、情報113において括弧の中に示されている。
図8では、情報121として示された、既登録情報例Cの「音声をミュートしても音量が変わらない。」という不具合情報を表す文字列が解析されることにより、情報122として示されているように、「音声」「ミュート」「しても」「音量」「変わらない」という5つの構成要素に分解される。そして、正規化により、これらの構成要素の中の一部が変換されて、「音声」「音声消去」「する」「音量」「変化しない」という5つの構成要素からなる正規化済既登録情報が生成される。
なお、正規化による変換前の構成要素がどのような構成要素に変換されたか(たとえば、「ミュート」→「音声消去」)という情報が、既登録情報変換用情報O102として記録される。図8では、既登録情報変換用情報O102に含まれる変換前の構成要素が、情報113において括弧の中に示されている。
[5.類似文書の検索]
図10を参照して、類似文書検索処理(ステップS21)を説明する。
本実施の形態では、新規入力情報と、全既登録情報のそれぞれとの類似の度合いが比較されて、全既登録情報の中から新規入力情報に類似するものが抽出される。
ここで、類似の度合いとは、たとえば、新規入力情報に対応する正規化済新規入力情報と構成要素と、既登録情報に対応する正規化済既登録情報の構成要素の、一致する個数に基づいて決定される。たとえば、新規入力情報に対応する正規化済新規入力情報の構成要素の個数(情報103では4個)に対する、上記一致する個数の割合とすることができる。そして、たとえば、当該割合が80%以上であれば、新規入力情報と当該既登録情報とが類似する、と判定される。なお、類似すると判定される割合は、80%に限定されない。100%とされても良いし、その他、適宜設定された割合とすることができる。
なお、類似の度合いは、図10に示されたように、既登録情報ごとに、一致した構成要素の数を点数化し(情報113については4個(4点)、情報123については1個(1点))、個数の最も多い既登録情報を、新規入力情報と類似すると判定されても良い。図10に示された例では、情報113に対応する既登録情報が新規入力情報に類似していると判定され、当該判定結果に対応する印(○)が付されている。また、情報123に対応する既登録情報は新規入力情報に類似していないと判定され、当該判定結果に対応する印(×)が付されている。
もちろん、最も多い個数に対応する既登録情報が複数存在すれば、そのすべてが新規入力情報に類似すると判定されても良い。
[6.補足条件の抽出]
図5を参照して説明した、補足条件抽出部3によって実行される処理について、具体的に説明する。
[6−1.B化Aの生成]
図11は、正規化済新規入力情報O4の構成要素を、正規化する前の既登録情報の構成要素に変換することにより、B化Aを生成する処理の内容を説明するための図である。
図11を参照して、図10の新規入力情報例A「キーを押すとリセットする。」という文字列の分解の結果として得られる構成要素が集合201として示されている。集合201は、「キー」「押す」「リセット」「する」の4つの構成要素を含む。
そして、これらが正規化されることによって得られる構成要素(正規化A)が集合202として示されている。集合202は、「キー」「押す」「リセット」「する」の4つの構成要素を含む。
図12は、図7の既登録情報例B「ボタンを123の順に押すと、電源が切れ再起動する。」という文字列の分解の結果として得られる構成要素が集合211として示されている。集合211は、「ボタン」「123の順」「押す」「電源切れ」「再起動」「する」という6つの構成要素を含む。
図11では、正規化Aの構成要素(集合202)の中の、既登録情報例Bの構成要素(集合211)と同じ「変換後の構成要素」に変換される構成要素が、当該既登録情報例Bの構成要素に置き換えられた集合203が示されている。
図9の構成要素正規化用類語テーブル61によれば、集合202の「リセット」は、「再起動」に変換される。また、集合203の「再起動」も、「再起動」に変換される。これにより、集合203は、集合202の「リセット」が「再起動」に置き換えられた、「キー」「押す」「再起動」「する」の4つの構成要素を含む。
集合202が、新規入力情報例Aと既登録情報例Bについての「B化A」である。
[6−2.補足条件の生成]
図13は、新規入力情報例A(図6)に類似すると判定された既登録情報例B(図7)について生成される補足条件に含まれる構成要素の集合221を示す。
集合221は、既登録情報例Bに含まれるが「B化A」に含まれない構成要素の集合(B∧¬B化A)である。
そして、補足条件抽出部3は、このように抽出された集合221を、上記した補足条件として出力する。
[6−3.補足条件の表示]
以上説明した本実施の形態では、新規入力情報41が入力されると、支援システム1は、不具合情報記録部50に記録される既登録情報51から、当該新規入力情報41に類似するものを選択する。また、支援システム1は、新規入力情報41に類似する既登録情報51について、当該既登録情報51に含まれるが当該新規入力情報41に含まれない構成要素を、補足条件として抽出する。
そして、支援システム1は、新規入力情報41の入力に対する処理として実行した、上記選択および上記抽出の結果として、たとえば図14に示すような画面を表示部70に表示させる。
図14に示す画面は、新規入力情報41に対応する表示141と、当該新規入力情報41に類似するとして選択された2つの既登録情報51に対応する表示142,143を含む。なお、表示142は、上記した既登録情報例B「ボタンを123の順に押すと、電源が切れ再起動する。」に対応する表示であり、表示143は、既登録情報「ボタンを456の順で押すと、電源が切れ再起動する。」に対応する表示である。
表示141〜143は、新規入力情報または既登録情報のそのものを示す「原文」の欄と、当該原文の構成要素の解析結果を示す「解析結果」の欄を含む。解析結果の欄には、正規化後の構成要素が示され、また、原文中の構成要素であって正規化による変換前の構成要素が括弧内に示されている。また、表示142,143は、さらに上記した補足条件を示す「補足条件」の欄が設けられている。
本実施の形態では、支援システム1では、新規入力情報41が入力されると、既に不具合情報記録部50に登録されている既登録情報51の中で、新規入力情報41に類似する情報が検索される。そして、新規入力情報41に類似する既登録情報51(既登録類似情報52)に含まれる構成要素であって、正規化後の新規入力情報41(正規化済新規入力情報42)に含まれていない構成要素が、補足条件として示される。
これにより、新規入力情報を入力したユーザは、自己が入力した情報と、既に登録されている不具合情報であって自己が入力した情報と類似する情報との差異点をより明確に認識できる。これにより、ユーザは、自己が入力した情報が、既登録情報を参照すれば足りるが否かをより明確に判断でき、これにより、新規入力情報を入力したユーザが、当該新規入力情報に類似する既登録情報を参照すれば済むような場合に、重複して当該新規入力情報が不具合情報記録部50に登録されることを回避できる。
ただし、ユーザが、補足条件を確認した上で、既登録情報を参照しても自己の不具合を解消できないと判断された場合には、新規入力情報は、不具合情報記録部50に登録される。
[7.変形例1]
上記実施の形態における文字列の正規化は、たとえば、不具合情報の入力の際に利用される用語が決められている場合には、省略することができる。このような場合、正規化の前後で、文字列は同一であると想定される。
正規化を省略した本変形例1では、新規入力情報の入力に応じて表示される画面は、図15に示すようなものとされる。
図15に示される画面は、表示241〜243を含む。表示241は、新規入力情報「キーを押すとリセットする。」に関する表示である。表示242は、当該新規入力情報に類似する既登録情報「キーを123の順に押すと、リセットする。」に関する表示である。表示243は、当該新規入力情報に類似する既登録情報「キーを456の順に押すと、リセットする。」に関する表示である。
図15は、正規化が行なわれない場合の画面であるため、表示241〜243の解析結果の欄には、図14の解析結果の欄に示されたような括弧書きは含まれない。
[8.変形例2]
図16は、図9に示した構成要素正規化用類語テーブル61において、テーブルの要素が複数の構成要素の集合を含む変形例を示している。
図16に示された組合せ152では、変換後の構成要素”リセット”(Y)についての変換前の構成要素の集合として、”リセット”(Ay)と、{”電源が切れ”、”再起動”}(By)とが含まれる。この{”電源が切れ”、”再起動”}(By)は、構成要素の集合であり、この集合と一致する場合に、正規化要素”リセット”(Y)に置き換わる。
図17は、図16の構成要素正規化用類語テーブルを用いた新規入力情報例Aと既登録情報例Bの正規化の結果を模式的に示す図である。新規入力情報例Aについての結果が情報103として、既登録情報例Bについての結果が表示114として、それぞれ示されている。
新規入力情報例Aは、図16の構成要素正規化用類語テーブルを用いられても、図9の構成要素正規化用類語テーブルが用いられた場合と同様に正規化される。このため、図17中の情報103は、図10中の情報103と同様である。
一方、既登録情報例Bは、図16の構成要素正規化用類語テーブル中の変換前の構成要素である集合を構成する複数の構成要素「電源が切れ」「再起動」を含む。したがって、図9の構成要素正規化用類語テーブルによる正規化の際に、「再起動」が「リセット」に、「電源が切れ」が「電源断」に、それぞれ変換されていたのに対し、図16の構成要素正規化用類語テーブルによる正規化では、「再起動」と「電源が切れ」がまとめて「リセット」に変換される。
これにより、図11を参照して説明したB化Aの生成は、図18に示すように変更される。
図18では、新規入力情報例Aの構成要素が集合201で示され、新規入力情報例Aの正規化された構成要素が集合202で示されている。
そして、上記のように既登録情報例Bの正規化において「再起動」「電源が切れ」の複数の構成要素が1つの構成要素「リセット」に変換されたため、「B化A」の生成の際、集合202中の「再起動」「電源が切れ」が1つの構成要素「リセット」に変換される。図18では、当該変換により生成されたB化Aの構成要素が集合204で示されている。
図19では、図18の「B化A」と既登録情報例Bとによって、図13を参照して説明した手法と同様の手法により生成される補足条件が集合221で示されている。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1 支援システム、2 類似文書検索部、3 補足条件抽出部、21 構成要素解析部、22 構成要素正規化部、23 判定部、41 新規入力情報、42 正規化済新規入力情報、50 不具合情報記録部、51 既登録情報、52 既登録類似情報、53 既登録情報変換用情報、60 正規化用テーブル記録部、61 構成要素正規化用類語テーブル、70 表示部、100 コンピュータ。

Claims (6)

  1. 第1の文字列を入力される入力手段と、
    前記第1の文字列の形態素と文字列記憶装置に記憶された複数の第2の文字列のそれぞれの形態素とを比較することにより、前記第1の文字列に類似する前記第2の文字列を選択する選択手段と、
    前記選択手段によって選択された前記第2の文字列に含まれている形態素であって前記第1の文字列に含まれていない形態素を抽出する抽出手段と、
    前記抽出手段によって抽出された形態素を表示する表示手段とを備えた、類似性導出装置。
  2. 前記第1の文字列の形態素を正規化する正規化手段をさらに備え、
    前記選択手段は、前記正規化手段によって正規化された前記第1の文字列の形態素と、前記正規化手段によって正規化された前記第2の文字列の形態素とを比較することにより、前記第1の文字列に類似する前記第2の文字列を選択する、請求項1に記載の類似性導出装置。
  3. 第1の形態素と、正規化により前記第1の形態素に置き換えられる第2の形態素とを関連付ける情報を記憶する関連情報記憶装置と通信可能な通信手段をさらに備え、
    前記正規化手段は、前記第1の文字列に含まれる前記第2の形態素を、前記情報において当該第2の形態素に関連付けられている前記第1の形態素に置き換えることにより、前記第1の文字列を正規化する、請求項2に記載の類似性導出装置。
  4. 前記正規化手段は、前記第2の文字列に含まれる前記第2の形態素を、前記情報において当該第2の形態素に関連付けられている前記第1の形態素に置き換えることにより、前記第2の文字列を正規化し、
    前記第1の文字列を、前記正規化後の前記第1の文字列に含まれる、前記正規化後の前記第2の文字列の前記第1の形態素と同一の形態素を、前記正規化前の前記第2の文字列の前記第2の形態素に置き換えることにより作成した第3の文字列に変換する変換手段をさらに備え、
    前記抽出手段は、前記第2の文字列に含まれている形態素であって、前記第3の文字列に含まれていない形態素を抽出する、請求項3に記載の類似性導出装置。
  5. 前記第1の文字列および前記第2の文字列は、不具合情報に関する記述である、請求項1〜請求項4のいずれかに記載の類似性導出装置。
  6. 文字列記憶装置に通信可能なコンピュータに、
    第1の文字列の入力を受付けるステップと、
    前記第1の文字列の形態素と前記文字列記憶装置に記憶された複数の第2の文字列のそれぞれの形態素とを比較することにより、前記第1の文字列に類似する前記第2の文字列を選択する選択手段と、
    前記選択手段によって選択された前記第2の文字列に含まれている形態素であって前記第1の文字列に含まれていない形態素を抽出するステップと、
    前記抽出された形態素を表示するステップとを実行させる、類似性導出プログラム。
JP2010146515A 2010-06-28 2010-06-28 類似性導出装置および類似性導出プログラム Withdrawn JP2012008948A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010146515A JP2012008948A (ja) 2010-06-28 2010-06-28 類似性導出装置および類似性導出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010146515A JP2012008948A (ja) 2010-06-28 2010-06-28 類似性導出装置および類似性導出プログラム

Publications (1)

Publication Number Publication Date
JP2012008948A true JP2012008948A (ja) 2012-01-12

Family

ID=45539379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010146515A Withdrawn JP2012008948A (ja) 2010-06-28 2010-06-28 類似性導出装置および類似性導出プログラム

Country Status (1)

Country Link
JP (1) JP2012008948A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142640A (ja) * 2016-02-10 2017-08-17 日本電信電話株式会社 類似文書推薦システム、類似文書推薦方法および類似文書推薦プログラム
JP2020190970A (ja) * 2019-05-23 2020-11-26 株式会社日立製作所 文書処理装置およびその方法、プログラム
JP2021140246A (ja) * 2020-03-02 2021-09-16 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142640A (ja) * 2016-02-10 2017-08-17 日本電信電話株式会社 類似文書推薦システム、類似文書推薦方法および類似文書推薦プログラム
JP2020190970A (ja) * 2019-05-23 2020-11-26 株式会社日立製作所 文書処理装置およびその方法、プログラム
JP2021140246A (ja) * 2020-03-02 2021-09-16 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7354019B2 (ja) 2020-03-02 2023-10-02 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP5280642B2 (ja) 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法
JP6413256B2 (ja) 会議支援装置、会議支援装置の制御方法、及びプログラム
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
JP2011018330A (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US11853689B1 (en) Computer-implemented presentation of synonyms based on syntactic dependency
CN105009151A (zh) 理解辅助系统、理解辅助服务器、理解辅助方法和计算机可读记录介质
WO2016178337A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
WO2019123854A1 (ja) 翻訳装置、翻訳方法、及びプログラム
US20210383063A1 (en) Technology name/service name generation device and method therefor
JP2012008948A (ja) 類似性導出装置および類似性導出プログラム
JP5151412B2 (ja) 表記ゆれ解析装置
JP2009277015A (ja) 入力支援プログラム、入力支援装置および入力支援方法
JP2008112363A (ja) 文書処理装置および文書処理プログラム
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP5300576B2 (ja) 検索装置、検索方法、および検索プログラム
JP6375367B2 (ja) 反論生成方法,反論生成システム
JP2013205854A (ja) 当て字変換人名入力装置、人名入力方法および人名入力プログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
TWI432981B (zh) 近似詞彙的關聯系統及其方法
JP2016035635A (ja) 音象徴語によるコミュニケーション支援装置
JP2007264858A (ja) 人名性別判定プログラム、機械翻訳プログラム、人名性別判定装置、機械翻訳装置、人名性別判定処理方法および機械翻訳処理方法
JP4300056B2 (ja) 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置
JP2005190100A (ja) 質問応答システムおよび方法
JP2007265131A (ja) 対話情報抽出装置,対話情報抽出方法およびプログラム
JP2007164732A (ja) コンピュータ実行可能なプログラム、および情報処理装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130903