JP7403216B2 - テキスト表示方法及び、テキスト表示装置 - Google Patents
テキスト表示方法及び、テキスト表示装置 Download PDFInfo
- Publication number
- JP7403216B2 JP7403216B2 JP2018200324A JP2018200324A JP7403216B2 JP 7403216 B2 JP7403216 B2 JP 7403216B2 JP 2018200324 A JP2018200324 A JP 2018200324A JP 2018200324 A JP2018200324 A JP 2018200324A JP 7403216 B2 JP7403216 B2 JP 7403216B2
- Authority
- JP
- Japan
- Prior art keywords
- words
- text data
- word
- graph
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000000605 extraction Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 6
- 239000003550 marker Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 241000251468 Actinopterygii Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 235000021167 banquet Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000013077 target material Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
特許文献4は、検索者が直感的に検索結果の分析を行うことができるようにする技術であり、検索時に関連度を求め、分析した結果をグラフ表示するものであるが、本文献でもテキストにおける検索結果の位置を明示することは実現されていない。
すなわち、本発明の第1の実施態様によれば、テキストデータと、テキストデータに含まれる2つ以上の語句の位置を表示するコンピュータのテキスト表示方法であって、表示手段が、当該語句が含まれる行の位置に合わせてグラフを表示すると共に、同一の語句又は異なる語句が所定の範囲内に複数存在する場合には、数に応じてグラフの態様を変化させて表示するテキスト表示方法を提供することができる。
図1は、本発明におけるテキスト表示装置(1)の全体図である。本装置(1)は公知のパーソナルコンピュータにより実施することができるほか、ウェブサーバ装置などのサーバ装置に実装することもできる。これらの機器の詳細については公知であるから説明を省略する。
図2は本発明に係るテキスト表示方法のフローチャートである。
学習用データ(201)は、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた第2のテキストデータ群におけるトピックについて記載された関連文字列情報との組み合わせから構成されている。
例えば、過去の大量のニュースに関するテキストデータを第2のテキストデータ群として入力するとして、トピック「国際」の下に「米国」「欧州」「中国」があるとき、人手によって「米国」に関する記事部分を抽出したものが関連文字列情報である。この場合の関連文字列情報は、当該記事全体となる。
特徴語は、テキストデータ中でトピックが記載されていることを特徴づける語句であり、前述の「米国」がトピックであれば、例えば「米国」「ニューヨーク」「トランプ大統領」など他のトピックの記事と区別されるような語句が考えられる。
また、特徴語の抽出のためにテキストデータを形態素解析して所定の形態素に分けることも周知技術である。
本実施例では、アスペクトデータにはトピック毎の特徴語に加え、特徴語には重み値を合わせて格納する。
あるいは、特徴語に定義された重み情報に基づいて所定の演算式により重み値を設定し、アスペクトデータにはトピックごとに抽出された特徴語について重み値を格納することもできる。
関連度評価工程では、入力処理部(101)から評価を行う対象の第1テキストデータ(203)を入力し、記憶部(20)に記録する。(テキストデータ入力ステップ:S4)
具体的には、トピック毎にアスペクトデータ(202)に格納される特徴語を検索し、例えば特徴語の数に応じて関連度を評価する。テキストデータ中の特徴語が頻出する箇所が関連度の高い箇所として抽出すれば良いので、簡単な方法としては、特徴語がある閾値よりも狭い範囲で繰り返し出現する部分を関連箇所として出力することもできる。
本図は第1テキストデータ(203)の先頭から末尾までを横軸に取り、左が先頭、右が末尾の文字位置を示している。各特徴語の縦は重み値を示している。
本実施例では同じルールに基づく検索結果はOR演算を行う。つまり、2段目の特徴語「米国」は4500文字目と8000文字目に出現するが、この場合図示のように特徴語を検索したときに重複した部分が生じても、重みを合計するのではなくORをとることで2000文字から10500文字までが重み1のグラフとなる。
その上で、これらの重み値のAND演算を行うと、下段に示した関連度のようなグラフとなる。このグラフは、テキストデータ中の関連箇所を視覚的に示すものであり、aの場所はトピック「米国」に関連がないことを示し、bやcは関連が高いことを示している。
一方、図4(d)のように、ルール2にはX(Y Z)<100を定義し、XとYの共起によるグラフがある場合には、AとBの共起によるグラフと、XとYの共起によるグラフのANDを取る。
以上のように本発明の特徴語については、複数の単語列や、所定の範囲内に共起する単語の組み合わせを含むことができる。
図5には、第1の画面表示例を示す。画面の左側にはトピック欄(40)が配置され、ユーザーはキーボード(31)やマウスなどを用いて表示するトピックを選択する。図では大項目である「生産戦略と拠点戦略」及び小項目である「国内回帰の動き」が選択されており、その右のスコア欄(41)には重み値の計算値が折れ線グラフで表示されている。スコア欄(41)は上端がテキストの先頭、下端が末尾である。
マーカー表示する範囲は、重み値の計算結果が所定の閾値を超えた語句が含まれる一文全体、又はその語句近傍の所定範囲の文章としてもよい。
このような表示方法は、ウェブブラウザのサイド部分のわずかな領域で、視覚的に分かりやすく表示することができ、例えば検索サービスの画面に適用しても好適である。
例えば、表2のようにトピックを「トランプ大統領」としたとき、「国」→「地域」→トピックと上位の概念から下位の概念の概念情報に分類され、国が階層1、地域が階層2、トピックが階層3となる。
マーカーの表示範囲としては、概念情報に属する特徴語ごとに、当該特徴語が含まれる文章全体、又は当該特徴語近傍の所定範囲の文章、又は特徴語のマージン範囲内の表示態様を変化させることができる。上位概念から下位概念のそれぞれの概念を含む文章ごとに区別できるように表示することで、読者は記事中の関連の程度を視覚的に理解しやすくなる。
すなわち、階層ごとに重み値とマージンの初期値を定める。表2の例では、階層1は重み値が1、前後のマージンが2500字、階層2は重み値が5、前後のマージンが1000字、階層3は重み値が10、前後のマージンが250字である。
10 CPU
101 入力処理部
102 特徴語抽出部
103 アスペクトデータ作成部
104 特徴語検索部
105 表示処理部
20 記憶部
201 学習用データ
202 アスペクトデータ
203 テキストデータ
30 モニタ
31 キーボード
32 通信部
Claims (6)
- テキストデータと、該テキストデータに含まれる2つ以上の語句の位置を表示するコンピュータのテキスト表示方法であって、表示手段が、
該テキストデータ中の当該語句が含まれる行以外を含む文章全体を表示すると同時に、
その文章全体中の当該語句が含まれる行の位置に合わせて少なくとも棒グラフ又は折れ線グラフであるグラフを表示し、
同一の語句又は異なる語句が所定の範囲内に複数存在する場合には、数に応じてグラフの態様を変化させて表示する構成において、
該グラフの態様を少なくとも棒グラフ又は折れ線グラフの高さとすることにより、文章全体と当該語句の分布とを合わせて表示する構成において、
前記2つ以上の語句にはあらかじめ重み値が定義されると共に、
前記2つ以上の語句には、それらの語句が同時に出現したかどうかを決定する語句間の距離に係る距離値が定義され、
該重み値及び該距離値に応じてグラフの態様を変化させて表示する
ことを特徴とするテキスト表示方法。 - 前記テキストデータを表示する際に、前記語句が含まれる一文全体、又は前記語句近傍の所定範囲の文章の表示態様を変化させる
請求項1に記載のテキスト表示方法。 - 入力された第1のテキストデータから、
着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価し、表示するコンピュータによるテキスト表示方法であって、
入力手段が、複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力ステップ、
特徴語抽出手段が、該関連文字列情報から特徴語を抽出する特徴語抽出ステップ、
アスペクトデータ作成手段が、該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成ステップ
の各ステップを有する学習工程の後、
入力手段が、第1のテキストデータを入力するテキストデータ入力ステップ、
特徴語検索手段が、該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索ステップ、
トピック毎に区別して特徴語の検索結果に基づく値を該関連度とし、該関連度に応じてグラフの態様を変化させて表示する
の各ステップを有する関連度評価工程を行う、
請求項1又は2に記載のテキスト表示方法。 - テキストデータと、該テキストデータに含まれる2つ以上の語句の位置を表示するコンピュータを用いたテキスト表示装置であって、
該テキストデータ中の当該語句が含まれる行以外を含む文章全体を表示すると同時に、
その文章全体中の当該語句が含まれる行の位置に合わせて少なくとも棒グラフ又は折れ線グラフであるグラフを表示し、
同一の語句又は異なる語句が所定の範囲内に複数存在する場合には、数に応じてグラフの態様を変化させて表示する構成において、
該グラフの態様を少なくとも棒グラフ又は折れ線グラフの高さとすることにより、文章全体と当該語句の分布とを合わせて表示する構成において、
前記2つ以上の語句にはあらかじめ重み値が定義されると共に、
前記2つ以上の語句には、それらの語句が同時に出現したかどうかを決定する語句間の距離に係る距離値が定義され、
該重み値及び該距離値に応じてグラフの態様を変化させて表示する
ことを特徴とするテキスト表示装置。 - 前記テキストデータを表示する際に、前記語句が含まれる一文全体、又は前記語句近傍の所定範囲の文章の表示態様を変化させる
請求項4に記載のテキスト表示装置。 - 入力された第1のテキストデータから着目する話題を分類した項目であるトピックについて、テキストデータ中に記載された関連箇所と該トピックとの関連度を評価するコンピュータを用いたテキスト表示装置であって、
複数の第2のテキストデータ群と、予め定義された複数のトピックと、予め関連づけられた該第2のテキストデータ群における該トピックについて記載された関連文字列情報とを学習用データとして入力する学習用データ入力手段と、
該関連文字列情報から特徴語を抽出する特徴語抽出手段と、
該トピックごとに抽出された特徴語を対応付けた情報であるアスペクトデータを作成し記憶手段に記憶するアスペクトデータ作成手段と、
第1のテキストデータを入力するテキストデータ入力手段と、
該アスペクトデータを参照し、少なくとも1つのトピックについて、該第1のテキストデータに含まれる特徴語を検索する特徴語検索手段とを備え、
表示手段が、トピックごとに区別して、特徴語の検索結果に基づく値を該関連度とし、該関連度に応じてグラフの態様を変化させて表示する
請求項4又は5に記載のテキスト表示装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018200324A JP7403216B2 (ja) | 2018-10-24 | 2018-10-24 | テキスト表示方法及び、テキスト表示装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018200324A JP7403216B2 (ja) | 2018-10-24 | 2018-10-24 | テキスト表示方法及び、テキスト表示装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020067830A JP2020067830A (ja) | 2020-04-30 |
JP7403216B2 true JP7403216B2 (ja) | 2023-12-22 |
Family
ID=70390416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018200324A Active JP7403216B2 (ja) | 2018-10-24 | 2018-10-24 | テキスト表示方法及び、テキスト表示装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7403216B2 (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010986A (ja) | 1998-06-18 | 2000-01-14 | Trendy:Kk | ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体 |
JP2001060206A (ja) | 1999-07-06 | 2001-03-06 | Ricoh Co Ltd | 関心概念表示方法、コンピュータ・プログラム製品及び関心概念表示装置 |
US20080077583A1 (en) | 2006-09-22 | 2008-03-27 | Pluggd Inc. | Visual interface for identifying positions of interest within a sequentially ordered information encoding |
JP2010055618A (ja) | 2008-08-28 | 2010-03-11 | Palo Alto Research Center Inc | トピックを基にした検索を提供する方法及びシステム |
JP2010146061A (ja) | 2008-12-16 | 2010-07-01 | Seiko Instruments Inc | 例文表示装置、例文表示方法および例文表示プログラム |
JP2010511936A5 (ja) | 2007-11-03 | 2010-12-09 | ||
JP2013130916A (ja) | 2011-12-20 | 2013-07-04 | Sharp Corp | 文書速読支援装置 |
US20170300563A1 (en) | 2016-04-14 | 2017-10-19 | Linkedin Corporation | Generating text snippets using supervised machine learning algorithm |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2806867B2 (ja) * | 1995-03-13 | 1998-09-30 | 株式会社トレンディ | ドキュメントデータベースの構築方法、表示方法、及び表示装置 |
US7793230B2 (en) * | 2006-11-30 | 2010-09-07 | Microsoft Corporation | Search term location graph |
-
2018
- 2018-10-24 JP JP2018200324A patent/JP7403216B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010986A (ja) | 1998-06-18 | 2000-01-14 | Trendy:Kk | ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体 |
JP2001060206A (ja) | 1999-07-06 | 2001-03-06 | Ricoh Co Ltd | 関心概念表示方法、コンピュータ・プログラム製品及び関心概念表示装置 |
US20080077583A1 (en) | 2006-09-22 | 2008-03-27 | Pluggd Inc. | Visual interface for identifying positions of interest within a sequentially ordered information encoding |
JP2010511936A5 (ja) | 2007-11-03 | 2010-12-09 | ||
JP2010055618A (ja) | 2008-08-28 | 2010-03-11 | Palo Alto Research Center Inc | トピックを基にした検索を提供する方法及びシステム |
JP2010146061A (ja) | 2008-12-16 | 2010-07-01 | Seiko Instruments Inc | 例文表示装置、例文表示方法および例文表示プログラム |
JP2013130916A (ja) | 2011-12-20 | 2013-07-04 | Sharp Corp | 文書速読支援装置 |
US20170300563A1 (en) | 2016-04-14 | 2017-10-19 | Linkedin Corporation | Generating text snippets using supervised machine learning algorithm |
Also Published As
Publication number | Publication date |
---|---|
JP2020067830A (ja) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7680778B2 (en) | Support for reverse and stemmed hit-highlighting | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
US20090327223A1 (en) | Query-driven web portals | |
EP0889417A2 (en) | Text genre identification | |
Smith et al. | Evaluating visual representations for topic understanding and their effects on manually generated topic labels | |
EP2019361A1 (en) | A method and apparatus for extraction of textual content from hypertext web documents | |
Hong | Data extraction for deep web using wordnet | |
KR20070058685A (ko) | 문서 구조에 기초한 검색 결과의 표시 | |
JP2007094855A (ja) | 文書処理装置及び文書処理方法 | |
KR20070089898A (ko) | 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치 | |
CN110134970B (zh) | 标题纠错方法和装置 | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
Carey et al. | HTML web content extraction using paragraph tags | |
Strzelecki et al. | Direct answers in Google search results | |
Zhang et al. | Sentiment bias detection in support of news credibility judgment | |
Jha et al. | Hsas: Hindi subjectivity analysis system | |
JP2019083040A (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
JP7403216B2 (ja) | テキスト表示方法及び、テキスト表示装置 | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP7324577B2 (ja) | テキスト処理方法及び、テキスト処理装置 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Jung et al. | Don't read, just look: Main content extraction from web pages using visual features | |
JP6153262B2 (ja) | 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
Negm et al. | A survey of web information extraction tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20181116 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210922 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230530 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7403216 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |