JP6736224B2 - 文章解析装置及び文章解析プログラム - Google Patents

文章解析装置及び文章解析プログラム Download PDF

Info

Publication number
JP6736224B2
JP6736224B2 JP2017032891A JP2017032891A JP6736224B2 JP 6736224 B2 JP6736224 B2 JP 6736224B2 JP 2017032891 A JP2017032891 A JP 2017032891A JP 2017032891 A JP2017032891 A JP 2017032891A JP 6736224 B2 JP6736224 B2 JP 6736224B2
Authority
JP
Japan
Prior art keywords
similarity
color image
image information
sentence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017032891A
Other languages
English (en)
Other versions
JP2018136900A (ja
Inventor
広海 樋口
広海 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Information Systems Japan Corp
Original Assignee
Toshiba Information Systems Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Information Systems Japan Corp filed Critical Toshiba Information Systems Japan Corp
Priority to JP2017032891A priority Critical patent/JP6736224B2/ja
Publication of JP2018136900A publication Critical patent/JP2018136900A/ja
Application granted granted Critical
Publication of JP6736224B2 publication Critical patent/JP6736224B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、画像処理を用いた文章解析装置及び文章解析プログラムに関するものである。
特許文献1には、文字を文字画像と判定し、この部位にて1文字単位でパターンマッチングにより文字認識を行う文書画像処理装置が示されている。この特許文献1に開示されている技術は、色の中に埋もれている文字をいかにして発見し、文字認識を行うかという課題を解決するものではあり、その内容は、類似する文章を探し出すなどのような文書解析処理を行うものではない。
特許文献2には、音声認識やテキスト文認識を利用して適切な文認識を行うことが困難であるという課題に鑑みてなされたものであり、予め定められた複数の内容語同士から構成される、予め定められた複数の標準内容語対を格納するデータベースを備えた文認識装置が開示されている。
この特許文献2に記載の文認識装置は、上記データベースに加えて、複数の単語から構成される入力された文を認識する音声認識手段と、認識された文を構成する複数の単語の内から内容語を選択する内容語選択手段と、選択された内容語同士から構成される任意内容語対が上記データベースに格納されている標準内容語対であるか否かを判定する判定手段と、判定の結果に基づいて、選択された内容語の内から認識が誤りである誤認識内容語を決定する誤認識内容語決定手段とを備えている。
また、特許文献3には、記事関連情報提供方法が開示されている。この記事関連情報提供方法は、記事番号を含む情報誌の記事を電子カメラで撮影し、撮影画像から矩形領域画像を切り取り、矩形領域画像の画像属性データを作成して、この画像属性データに対して記事番号画像判定データを適用して、記事番号画像と判定した記事番号画像データを抽出する。次に、抽出された記事番号画像を文字認識して、記事番号とし、記事番号に基づいて、記事データベースを検索して、得られた記事関連データを読み取って、携帯端末装置に返信する。更に、携帯端末装置が記事関連データを表示するという手順を含んだ記事関連情報提供方法である。
特開2001−43312号公報 特開2002−351494号公報 特開2010−231431号公報
上記の通り、特許文献1の発明では、文字認識を行うことができるが文章解析を行うことは不可能である。このため、同じような内容の記事や文章等を探すなどのツールとして用いることはできない。
また、特許文献2に発明は、単語の認識により誤認識特定単語があった場合に再入力を行うという誤認識検出の技術に留っており、同じような内容の記事や文章等を探すなどのツールとして用いることはできない。
更に、特許文献3は、記事情報を提供することができるものの、これは、予め記事内容が格納されたデータベースを持つことが前提であり、文章解析により同じような内容の記事や文章等を探すものではない。即ち、記事番号を認識できる程度の処理を行えるものが開示されているだけである。
本発明は上記のような従来の文章処理に関する技術の限界に鑑みてなされたもので、その目的は、比較的簡単な処理により二つ文章の類似度を検出することができ、このために、同じような内容の記事や文章等を探すなどのツールとして用いることが可能である文章解析装置及び文章解析プログラムを提供することである。
本発明に係る文章解析装置は、文節を構成する文節文言情報と色画像情報とが対応付けられた文言・色対応テーブルと、入力された文章を文節に分割し、前記文言・色対応テーブルの情報に基づき、前記入力された色画像情報の配列により構成される文章色画像情報へ変換する色画像情報変換手段と、前記色画像情報変換手段により第1の文章が変換された第1の文章色画像情報と、前記色画像情報変換手段により第2の文章が変換された第2の文章色画像情報とを比較し、類似度を求める類似度検出手段と、前記類似度検出手段により求められた類似度に基づき2文章の類似度を表す類似度標記情報を作成し、表示手段に出力する類似度出力手段と、を具備することを特徴とする。
本発明に係る文章解析装置では、前記文言・色対応テーブルの色画像情報は、2つの文節文言の類似度が高くなるほど値の変化が小さく設定され、また、2つの文節文言の類似度が低くなるほど値の変化が大きく設定されていることを特徴とする。
本発明に係る文章解析装置では、前記文言・色対応テーブルでは、文字コードにより構成される文節文言情報と、RGBの色データを所定ビットで表現した色画像情報とが、対応付けられていることを特徴とする。
本発明に係る文章解析装置では、前記文言・色対応テーブルは、文節文言情報に含まれている自立語の品詞毎に分けた系列により構成されていることを特徴とする。
本発明に係る文章解析装置では、2文章の類似度を表す類似度標記情報は、パーセントの数字類似度標記により構成されることを特徴とする。
本発明に係る文章解析装置では、前記色画像情報変換手段により処理された文章色画像情報が記憶される記憶手段を有し、前記類似度検出手段は、新たに入力され変換された文章色画像情報と前記記憶手段に記載された文章色画像情報とを比較して、類似度情報を求め、前記類似度検出手段により求められた類似度情報に基づき、所定以上の類似度を持つ文章色画像情報を抽出する抽出手段を備えることを特徴とする。
本発明に係る文章解析装置では、前記記憶手段に記憶された文章色画像情報を前記文言・色対応テーブルの情報に基づき文章に変換する文章復元手段を備えることを特徴とする。
本発明に係る文章解析装置では、前記類似度検出手段が検出する類似度の幅を調整する類似度幅調整手段が備えられていることを特徴とする。
本発明に係る文章解析プログラムは、文節を構成する文節文言情報と色画像情報とが対応付けられた文言・色対応テーブルを有する文章解析装置のコンピュータを、入力された文章を文節に分割し、前記文言・色対応テーブルの情報に基づき、前記入力された色画像情報の配列により構成される文章色画像情報へ変換する色画像情報変換手段、前記色画像情報変換手段により第1の文章が変換された第1の文章色画像情報と、前記色画像情報変換手段により第2の文章が変換された第2の文章色画像情報とを比較し、類似度を求める類似度検出手段、前記類似度検出手段により求められた類似度に基づき2文章の類似度を表す類似度標記情報を作成し、表示手段に出力する類似度出力手段、として機能させることを特徴とする。
本発明に係る文章解析プログラムでは、前記文言・色対応テーブルの色画像情報は、2つの文節文言の類似度が高くなるほど値の変化が小さく設定され、また、2つの文節文言の類似度が低くなるほど値の変化が大きく設定されていることを特徴とする。
本発明に係る文章解析プログラムでは、前記文言・色対応テーブルでは、文字コードにより構成される文節文言情報と、RGBの色データを所定ビットで表現した色画像情報とが、対応付けられていることを特徴とする。
本発明に係る文章解析プログラムでは、前記文言・色対応テーブルは、文節文言情報に含まれている自立語の品詞毎に分けた系列により構成されていることを特徴とする。
本発明に係る文章解析プログラムでは、2文章の類似度を表す類似度標記情報は、パーセントの数字類似度標記により構成されることを特徴とする。
本発明に係る文章解析プログラムでは、前記文章解析装置は、前記色画像情報変換手段により処理された文章色画像情報が記憶される記憶手段を有し、前記類似度検出手段は、新たに入力され変換された文章色画像情報と前記記憶手段に記載された文章色画像情報とを比較して、類似度情報を求めるように機能し、前記コンピュータを、前記類似度検出手段により求められた類似度情報に基づき、所定以上の類似度を持つ文章色画像情報を抽出する抽出手段として機能させることを特徴とする。
本発明に係る文章解析プログラムでは、前記コンピュータを、前記記憶手段に記憶された文章色画像情報を前記文言・色対応テーブルの情報に基づき文章に変換する文章復元手段として機能させることを特徴とする。
本発明に係る文章解析プログラムでは、前記コンピュータを、前記類似度検出手段が検出する類似度の幅を調整する類似度幅調整手段として機能させることを特徴とする。
本発明によれば、文節を構成する文節文言情報と色画像情報とが対応付けられた文言・色対応テーブルを用い、入力された文章を文節に分割し、上記文言・色対応テーブルの情報に基づき、入力された色画像情報の配列により構成される文章色画像情報へ変換し、第2の文章色画像情報とを比較し、類似度を求めるので、比較的簡単な処理により二つ文章の類似度を検出することができる。このため、本発明により同じような内容の記事や文章等を探すなどのツールを実現できる。
また、色画像情報変換手段により処理された文章色画像情報が記憶される記憶手段を備えておくと、この記憶手段に記憶された文章色画像情報の文章と入力された文章の類似度を求めて、記憶された文章色画像情報の文章中から所要の文章を抽出でき、また、文章色画像情報から文章を復元する用にすることも可能である。
本発明に係る文章解析装置の実施形態の構成を示すブロック図。 本発明に係る文章解析装置の第1の実施形態の構成を示す機能ブロック図。 本発明に係る文章解析装置の実施形態に用いられる文言・色対応テーブルの内容の一例を示す図。 本発明に係る文章解析装置の実施形態に用いられる文言・色対応テーブルの情報を作成する原理の一例を示す図。 本発明に係る文章解析装置の実施形態に用いられる文言・色対応テーブルの情報を作成する原理の他の一例を示す図。 本発明に係る文章解析装置の実施形態に用いられる類似度検出ルールの一例を示す図。 本発明に係る文章解析装置の実施形態により出力された類似度結果の一例を示す図。 本発明に係る文章解析装置の第2の実施形態の構成を示す機能ブロック図。
以下添付図面を参照して、本発明に係る文章解析装置及び文章解析プログラムの実施形態を説明する。各図において同一の構成要素には、同一の符号を付して重複する説明を省略する。図1に、実施形態に係る文章解析装置のブロック図を示す。
実施形態に係る文章解析装置は、例えばコンピュータサーバにより構成することができ、CPU10が主メモリ11内のプログラムやデータを用いて各部を統括制御するように構成される。CPU10には、バス12を介して記憶装置コントローラ13、メモリコントローラ14、表示器コントローラ15、入力コントローラ16が接続されている。勿論、これ以外に、プリンタとそれが接続されるプリンタコントローラやスキャナとそれが接続されるスキャナコントローラなど必要なデバイスとコントローラが備えられても良い。
記憶装置コントローラ13には、文章解析装置を実現するためのプログラムやデータが記憶される外部記憶装置23が接続され、メモリコントローラ14には、ROMなどにより構成される文言・色対応テーブル24が接続され、表示器コントローラ15には、情報を表示するためのLCDなどから構成される表示器25が接続され、入力コントローラ16には、キーボードやマウスなどの情報入力を行うための入力装置26が接続されている。上記の外部記憶装置23に記憶された、文章解析装置を実現するためのプログラムによって、図2に示すような文章解析装置が構成される。
即ち、文字コード変換手段32、色画像情報変換手段33、類似度検出手段34、類似度出力手段35がプログラムにより実現される。文言・色対応テーブル24は色画像情報変換手段33によって参照される。また、表示手段36は表示器25などのような情報を表示する装置や図示しないがプリンタなどのハードコピーを出力する装置である。また、入力部31は文章を文字コード、イメージ、音声などで入力する装置であり、CDなどの記録媒体による入力やインターネットなどからのダウンロード等を含む、入力装置である。
上記文言・色対応テーブル24は、文節を構成する文節文言情報と色画像情報とが対応付けられて記憶されたテーブルである。例えば図3に示すように、文言・色対応テーブル24は、例えば図3に示すように、文節文言情報に含まれている自立語の品詞毎に分けた系列により構成されている。品詞は、図示のように、名詞、副詞、連体詞、接続詞、感動詞、動詞、形容詞、形容動詞である。文節文言情報は、文節文言を構成する文字毎の文字コードが連結された情報である。
上記の各品詞毎の色画像情報は、例えば、名詞、副詞、連体詞、接続詞、感動詞、動詞、形容詞、形容動詞と進み、再び名詞に戻る「品詞の環」を色相環図に対応させて作成し、色を対応させて割り当てることができる。また、個別の品詞における色画像情報については、上記文言・色対応テーブル24の色画像情報は、2つの文節文言の類似度が高くなるほど値の変化が小さく設定され、また、2つの文節文言の類似度が低くなるほど値の変化が大きく設定されている。
名詞の色画像情報は、文節を構成する文節文言情報が例えば図4に示すように、「私は」を中心として、上方向に文節文言として類似する「私の」が並べられ、下方向に「私が」、「私へ」の順で文節文言として類似するものが並べられるようにする。そして、この上下方向は明度や彩度が異なる方向とし、注目の文節文言情報から遠ざかると、文節文言としての類似度が小さくなるように文節文言情報を並べる。1つ枡は、文節文言としての類似度が所定値だけ異なることを示し、色画像情報の所定値(後述のトゥルーカラー表現による値)の差に対応させる。
また、左右方向は色相環図の環によって進む方向と対応させ、注目の文節文言情報から遠ざかると、文節文言としての類似度が小さくなるように文節文言情報を並べる。従って、「私は」の左隣は「私は」に類似する「自分は」が配置される。「私は」の右隣にスペース(空白)がある。このスペースは、文節文言としての類似度が所定値だけ異なることを示し、色画像情報の所定値(後述のトゥルーカラー表現による値)の差に対応させる。従って、「私は」と「○○は」(○○は、例えば固有名詞)との文節文言としての類似度には、2スペース分の差があり、2スペース分の所定値の差を持つ色画像情報が割り当てられることを意味する。従って、図示していないが、文節文言情報「人は」と「私は」が例えば10枡分離れている類似度であるならば、10枡分に対応してそれぞれに色画像情報が割り当てられる。そして、「私は」のような主語である文節文言の色画像情報を中心に類似度の色画像情報が配置されるようにする。
図5は、形容詞の文節文言情報と色画像情報の関係を示す図である。形容詞では、名詞を含む文節文言情報のように助詞だけが異なる例を示すことができないため、上下方向に枡が描かれていない。しかし、文節文言としての類似度の差が極めて小さい文節文言情報については上下方向に配置しても良い。図5においても、1枡は所定の文節文言としての類似度差を示し、これは色画像情報の所定値(後述のトゥルーカラー表現による値)の差に対応している。この例では、「きれい」と「美しい」は隣接する枡に配置され、「美しい」と「心地よい」は3スペースの類似度差があることを示している。名詞や動詞は、述語となる品詞としての色として処理される。
色画像情報は、例えば、1677万7216色を表現できる24ビットまたは36ビットのトゥルーカラー表現を用いることができる。このトゥルーカラー表現による24ビットまたは36ビットの色画像情報を、図4、図5において説明したような規則で配置した文節文言情報に対して上記の規則により割り当てる。これにより、図3に示すように、文節文言情報と色画像情報とのペアからなる情報のテーブルが作成される。このように、文言・色対応テーブル24の色画像情報は、RGBの色データを所定ビットで表現したものである。トゥルーカラー表現は上記の色数を表現できるため、約50万語であると言われている日本語の単語によって構成される文節文言に対応させることは可能である。図4、図5は、文節文言情報の類似度に対応した色画像情報の割り当て方を示したものであるから、当然のことながら、図4、図5のスペースに対応した情報を文言・色対応テーブル24に設ける必要はない。
図2に示した文字コード変換手段32は、入力部31から入力された文章の文字を文字コード変換する。即ち、文字コードにより構成される文字が入力されると、変換の必要はないが、音声や画像により入力された場合には、音声認識や画像文字認識を行って文字コードへの変換を行う。
色画像情報変換手段33は、入力部31から入力され文字コード変換手段32により文字コードに変換された文字から構成される文章を文節に分割し、上記文言・色対応テーブル24の情報に基づき、上記入力された色画像情報の配列により構成される文章色画像情報へ変換するものである。
類似度検出手段34は、上記色画像情報変換手段33により第1の文章が変換された第1の文章色画像情報と、上記色画像情報変換手段33により第2の文章が変換された第2の文章色画像情報とを比較し、類似度を求めるものである。類似度検出手段34は、画像を256階調やそれ以下或いはそれ以上の階調の分解能で同一色であるか類似であるか、或いは異なっているかを検出する。従って、同一色と類似色と非類似色は、上記例えば256階調に閾値を設けて判定する。つまり、トゥルーカラー表現による24ビットまたは36ビットの色画像情報を例えば256階調のコードとして処理する。勿論、この色の分類は、同一色と類似色と非類似色の3分類に限定されるものではなく、同一色と非類似色との間を複数に分けても良い。
類似度検出手段34は、類似度検出ルール情報を有することができる。この類似度検出ルール情報は、例えば、図6に示すような情報とすることができる。前述の通り、色画像情報変換手段33による文言・色対応テーブル24の情報を用いた変換によって、幾つかの文節により構成される文章は、幾つかの色画像情報が連なった情報に変換される。そこで、これらの色画像情報がその並びを含めて完全一致すると、類似度は100%とする。ここにおける類似や一致の判定は、前述の通り、例えば256階調で行う。また、主語(名詞等)と述語(形容詞や動詞)の色画像情報が一致すると、類似度は90%とする。主語(名詞等)の色画像情報が一致し、且つ述語(形容詞や動詞)の色画像情報が類似であると、類似度は89%とする。上記のルール2やルール3に加えて、主語や述語に係る(隣接する)形容詞が2文章において一致した場合には3%加算、動詞、形容詞、形容動詞に係る副詞が2文章で一致した場合には3%加算など、加算のルールを加えることができる。また、述語が真逆の2文章は、他の項目があっても類似度は0%などとする。その他の色画像情報の並びや色画像情報の平均値等を類似度を求めるルールとしても良い。
類似度出力手段35は、上記類似度検出手段34により求められた類似度に基づき2文章の類似度を表す類似度標記情報を作成し、表示手段36に出力する。なお、文章名(文章A、B、C、・・・等)は、文章と共に入力されて付随して移動するものとする。
以上のように構成された文章解析装置に対し、文章Aと文章Bの類似度、文章Cと文章Dの類似度、文章Eと文章Fの類似度を出力させた場合の出力結果を図7に示す。この図7に明らかな通り、2文章の類似度を表す類似度標記情報は、パーセントの数字類似度標記により構成される。
上記の実施形態では、1つの文章を1文章(句点が一つの文章)として説明したが、解説文や説明文や物語など複数文章から構成されている文章については、上記の2文章の類似度検出を応用して総合の類似度を求めるようにしても良い。例えば、1文章により構成される文章Xと複数文章Y1、Y2、Y3、・・・Ynからなる文章Yの類似度は、文章Xと文章Y1、Y2、Y3、・・・Ynの類似度を求め、平均値を類似度とする。文章Xと文章Y1、Y2、Y3、・・・Ynの類似度を求め、所定(例えば80%)以上の文章が複数ある場合、2つの文章X、文章Yは類似しているとする(判定方法1)。或いは、上記判定方法1に加えて、文章Xの主語と類似度が高い文言が文章Yに所定数(例えば、文章数の3割以上)検出されると、2つの文章X、文章Yは類似しているとする、などのルールに基づき類似度を判定するようにしても良い。
図8は、第2の実施形態に係る文章解析装置のブロック図である。この文章解析装置では、記憶手段41、抽出手段42、文章復元手段43、類似度幅調整手段44が備えられる。記憶手段41は外部記憶装置などにより構成され、色画像情報変換手段33により処理された文章色画像情報が文章名と共に記憶される。文章名は、色画像情報変換せずに文字コードもその色画像情報変換結果と共に記憶するものとする。文章名の色画像情報変換結果は、第1の実施形態における類似度検出に用いることができる。
本実施形態では、類似度検出手段34は、新たに入力され変換された文章色画像情報と上記記憶手段41に記載された文章色画像情報とを比較して、類似度情報を求めることができる。勿論、本実施形態においても入力部31から入力された2文章の類似度情報を求めることもできる。抽出手段42は、類似度検出手段34により求められた類似度情報に基づき、所定以上の類似度を持つ文章色画像情報を抽出する。
従って、新たに文章とその文章名を入力して、これに類似(所定以上の類似度を持つ)の記憶手段41に記憶された文章色画像情報を求めることができる。抽出手段42によって求められた文章色画像情報は、その文章名が表示手段36に送られて、文章名が出力される。類似度の判定は第1の実施形態において示した通りである。この実施形態によると、本装置を、同じような内容の記事や文章等を記憶手段41に記憶された記事や文章の中から探すなどのツールとして用いることができる。
また、文章復元手段43は、上記において表示手段36に文章名のみが出力された場合に、その内容の文章を表示手段36から出力させる場合に用いることができる。文章復元手段43は、記憶手段41に記憶された文章色画像情報を上記文言・色対応テーブル24の該当情報に基づき文章に変換する。つまり、文章復元手段43は、文章名により当該文章の出力指示を受けると、記憶手段41から当該文章名に対応する文章色画像情報を取り出し、文言・色対応テーブル24の該当情報に基づき文章に変換して、表示手段36に出力する。
本実施形態に備えられている類似度幅調整手段44は、類似度検出手段34が検出する類似度の幅を調整するものである。つまり、例えば図1の入力装置26から類似度を所定の刻み(例えば、2%とか1%)で低くする或いは高くする指示を送ると、類似度検出手段34が図6の類似度検出ルールの数値を変化させ、総合の類似度を調整することができる。また、類似度検出手段34において、同一色と類似色と非類似色を決定する、例えば解像度256階調の色画像情報についての閾値を変更することによっても、類似度の幅を調整することは可能である。この類似度幅調整手段44は、第1の実施形態に備えさせても良い。
以上のようにして、上記2つの実施形態によれば、色画像情報の類似・非類似によって文章を解析することができ、類似判定の処理速度が高速でありながら、所要の精度の文章解析が可能である。つまり、文節文言は非常に多くの数になるから、色画像情報変換手段33は24ビットや32ビットで変換する必要があるが、変換結果から得られた色画像情報を類似度検出手段34で識別するのは256階調かそれより少し上或いは少し下の階調となる。従って、類似判定の処理速度を高速とすることが可能となる。
なお、以上の2つの実施形態では、文言・色対応テーブル24を文節文言情報に含まれている自立語の品詞毎に分けた系列により構成されているものとしたが、これに限定されない。文言・色対応テーブル24を、例えば、主語、述語、修飾語、その他(接続語等)の文節文言に分け、この主語、述語、修飾語、その他(接続語等)の文節文言に対し、既に説明した色画像情報の割り当て手法と同様にして色画像情報の割り当てることにより作成しても良い。また、色画像情報として、1677万7216色を表現できる24ビットまたは36ビットのトゥルーカラー表現を用いることを示したが、これは一例に過ぎず、現在用いられているまたは将来用いられる各種の色のディジタル表現法(表記法)を用いるようにしても良い。
10 CPU
11 主メモリ
12 バス
13 記憶装置コントローラ
14 メモリコントローラ
15 表示器コントローラ
16 入力コントローラ
23 外部記憶装置
24 文言・色対応テーブル
25 表示器
26 入力装置
31 入力部
32 文字コード変換手段
33 色画像情報変換手段
34 類似度検出手段
35 類似度出力手段
36 表示手段
41 記憶手段
42 抽出手段
43 文章復元手段
44 類似度幅調整手段

Claims (16)

  1. 文節を構成する文節文言情報と色画像情報とが対応付けられた文言・色対応テーブルと、
    入力された文章を文節に分割し、前記文言・色対応テーブルの情報に基づき、前記入力された色画像情報の配列により構成される文章色画像情報へ変換する色画像情報変換手段と、
    前記色画像情報変換手段により第1の文章が変換された第1の文章色画像情報と、前記色画像情報変換手段により第2の文章が変換された第2の文章色画像情報とを比較し、類似度を求める類似度検出手段と、
    前記類似度検出手段により求められた類似度に基づき2文章の類似度を表す類似度標記情報を作成し、表示手段に出力する類似度出力手段と、
    を具備することを特徴とする文章解析装置。
  2. 前記文言・色対応テーブルの色画像情報は、2つの文節文言の類似度が高くなるほど値の変化が小さく設定され、また、2つの文節文言の類似度が低くなるほど値の変化が大きく設定されていることを特徴とする請求項1に記載の文章解析装置。
  3. 前記文言・色対応テーブルでは、文字コードにより構成される文節文言情報と、RGBの色データを所定ビットで表現した色画像情報とが、対応付けられていることを特徴とする請求項1または2に記載の文章解析装置。
  4. 前記文言・色対応テーブルは、文節文言情報に含まれている自立語の品詞毎に分けた系列により構成されていることを特徴とする請求項1乃至3のいずれか1項に記載の文章解析装置。
  5. 2文章の類似度を表す類似度標記情報は、パーセントの数字類似度標記により構成されることを特徴とする請求項1乃至4のいずれか1項に記載の文章解析装置。
  6. 前記色画像情報変換手段により処理された文章色画像情報が記憶される記憶手段を有し、
    前記類似度検出手段は、新たに入力され変換された文章色画像情報と前記記憶手段に記載された文章色画像情報とを比較して、類似度情報を求め、
    前記類似度検出手段により求められた類似度情報に基づき、所定以上の類似度を持つ文章色画像情報を抽出する抽出手段を
    備えることを特徴とする請求項1乃至5のいずれか1項に記載の文章解析装置。
  7. 前記記憶手段に記憶された文章色画像情報を前記文言・色対応テーブルの情報に基づき文章に変換する文章復元手段を備えることを特徴とする請求項6に記載の文章解析装置。
  8. 前記類似度検出手段が検出する類似度の幅を調整する類似度幅調整手段が備えられていることを特徴とする請求項1乃至7のいずれか1項に記載の文章解析装置。
  9. 文節を構成する文節文言情報と色画像情報とが対応付けられた文言・色対応テーブルを有する文章解析装置のコンピュータを、
    入力された文章を文節に分割し、前記文言・色対応テーブルの情報に基づき、前記入力された色画像情報の配列により構成される文章色画像情報へ変換する色画像情報変換手段、
    前記色画像情報変換手段により第1の文章が変換された第1の文章色画像情報と、前記色画像情報変換手段により第2の文章が変換された第2の文章色画像情報とを比較し、類似度を求める類似度検出手段、
    前記類似度検出手段により求められた類似度に基づき2文章の類似度を表す類似度標記情報を作成し、表示手段に出力する類似度出力手段、
    として機能させることを特徴とする文章解析プログラム。
  10. 前記文言・色対応テーブルの色画像情報は、2つの文節文言の類似度が高くなるほど値の変化が小さく設定され、また、2つの文節文言の類似度が低くなるほど値の変化が大きく設定されていることを特徴とする請求項9に記載の文章解析プログラム。
  11. 前記文言・色対応テーブルでは、文字コードにより構成される文節文言情報と、RGBの色データを所定ビットで表現した色画像情報とが、対応付けられていることを特徴とする請求項9または10に記載の文章解析プログラム。
  12. 前記文言・色対応テーブルは、文節文言情報に含まれている自立語の品詞毎に分けた系列により構成されていることを特徴とする請求項9乃至11のいずれか1項に記載の文章解析プログラム。
  13. 2文章の類似度を表す類似度標記情報は、パーセントの数字類似度標記により構成されることを特徴とする請求項9乃至12のいずれか1項に記載の文章解析プログラム。
  14. 前記文章解析装置は、前記色画像情報変換手段により処理された文章色画像情報が記憶される記憶手段を有し、
    前記類似度検出手段は、新たに入力され変換された文章色画像情報と前記記憶手段に記載された文章色画像情報とを比較して、類似度情報を求めるように機能し、
    前記コンピュータを、前記類似度検出手段により求められた類似度情報に基づき、所定以上の類似度を持つ文章色画像情報を抽出する抽出手段
    として機能させることを特徴とする請求項9乃至13のいずれか1項に記載の文章解析プログラム。
  15. 前記コンピュータを、前記記憶手段に記憶された文章色画像情報を前記文言・色対応テーブルの情報に基づき文章に変換する文章復元手段
    として機能させることを特徴とする請求項14に記載の文章解析プログラム。
  16. 前記コンピュータを、前記類似度検出手段が検出する類似度の幅を調整する類似度幅調整手段として機能させることを特徴とする請求項9乃至15のいずれか1項に記載の文章解析プログラム。
JP2017032891A 2017-02-24 2017-02-24 文章解析装置及び文章解析プログラム Active JP6736224B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017032891A JP6736224B2 (ja) 2017-02-24 2017-02-24 文章解析装置及び文章解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017032891A JP6736224B2 (ja) 2017-02-24 2017-02-24 文章解析装置及び文章解析プログラム

Publications (2)

Publication Number Publication Date
JP2018136900A JP2018136900A (ja) 2018-08-30
JP6736224B2 true JP6736224B2 (ja) 2020-08-05

Family

ID=63367023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017032891A Active JP6736224B2 (ja) 2017-02-24 2017-02-24 文章解析装置及び文章解析プログラム

Country Status (1)

Country Link
JP (1) JP6736224B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633048B (zh) * 2017-09-15 2021-02-26 国网重庆市电力公司电力科学研究院 一种图像标注鉴别方法及系统
CN110188180B (zh) * 2019-05-31 2021-06-01 腾讯科技(深圳)有限公司 相似问题的确定方法、装置、电子设备及可读存储介质
CN112215013B (zh) * 2020-11-02 2022-04-19 天津大学 一种基于深度学习的克隆代码语义检测方法
CN114222196A (zh) * 2022-01-04 2022-03-22 阿里巴巴新加坡控股有限公司 一种剧情解说短视频的生成方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092344A (ja) * 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 重複文書検出装置、重複文書検出方法および重複文書検出プログラム
JP2008257537A (ja) * 2007-04-06 2008-10-23 Fuji Xerox Co Ltd 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム
JP5245151B2 (ja) * 2007-12-17 2013-07-24 日本学校図書株式会社 文章作成教育用積木玩具

Also Published As

Publication number Publication date
JP2018136900A (ja) 2018-08-30

Similar Documents

Publication Publication Date Title
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
JP6736224B2 (ja) 文章解析装置及び文章解析プログラム
US7269544B2 (en) System and method for identifying special word usage in a document
KR102509836B1 (ko) 문서 타이틀 트리의 구축 방법, 장치, 전자기기, 저장매체 및 컴퓨터 프로그램
Sakuntharaj et al. Use of a novel hash-table for speeding-up suggestions for misspelt Tamil words
Zouaghi et al. Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation
JP2012185722A (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
WO2009123288A1 (ja) 単語分類システム、方法およびプログラム
Vinnarasu et al. Speech to text conversion and summarization for effective understanding and documentation
Freihat et al. Towards an optimal solution to lemmatization in Arabic
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
JP2006318219A (ja) 類似スライド検索プログラム及び検索方法
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
CN116719999A (zh) 文本相似度检测方法和装置、电子设备及存储介质
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
JP2006235916A (ja) テキスト解析装置およびテキスト解析方法ならびに音声合成装置
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPWO2009041661A1 (ja) 情報処理装置、及びプログラム
Melinamath Rule based methodology for recognition of Kannada named entities
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191118

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20191118

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200708

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200714

R150 Certificate of patent or registration of utility model

Ref document number: 6736224

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250