JP2015125594A - Information processing device, information processing method and program - Google Patents

Information processing device, information processing method and program Download PDF

Info

Publication number
JP2015125594A
JP2015125594A JP2013269582A JP2013269582A JP2015125594A JP 2015125594 A JP2015125594 A JP 2015125594A JP 2013269582 A JP2013269582 A JP 2013269582A JP 2013269582 A JP2013269582 A JP 2013269582A JP 2015125594 A JP2015125594 A JP 2015125594A
Authority
JP
Japan
Prior art keywords
word
information processing
network graph
selection
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013269582A
Other languages
Japanese (ja)
Other versions
JP2015125594A5 (en
JP6287192B2 (en
Inventor
利之 片岡
Toshiyuki Kataoka
利之 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Canon MJ IT Group Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc, Canon MJ IT Group Holdings Inc filed Critical Canon Marketing Japan Inc
Priority to JP2013269582A priority Critical patent/JP6287192B2/en
Publication of JP2015125594A publication Critical patent/JP2015125594A/en
Publication of JP2015125594A5 publication Critical patent/JP2015125594A5/ja
Application granted granted Critical
Publication of JP6287192B2 publication Critical patent/JP6287192B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a technology enabling a user to easily find information intended by a user or variable information from a large-scale text.SOLUTION: An information processing device displays a list of words obtained by analyzing a document, receives selection of a word subjected to list display, creates a network graph containing words having received selection, and displays the graph. The network graph comprises a node where a word is displayed, and an edge connecting the nodes. When the node is selected, a word related to the word of the node is further displayed.

Description

本発明は、情報処理装置、情報処理方法、プログラムに関する。   The present invention relates to an information processing apparatus, an information processing method, and a program.

WEB上ではブログ記事やSNS、また、論文や特許文献など膨大なテキストデータが次々と生成されている。この大規模テキストから必要に応じて価値ある情報もしくはユーザが意図する情報を迅速に発見することが求められている。   On the WEB, enormous text data such as blog articles and SNS, papers and patent documents are generated one after another. It is required to quickly find valuable information or information intended by the user from this large-scale text as required.

しかし、興味や価値ある情報が生成されたとしても、頻繁にSNSや論文などを確認しなければ見過ごしてしまう。   However, even if interesting or valuable information is generated, it will be overlooked unless SNS or papers are frequently confirmed.

また、大規模テキストから情報を検索する場合、意図する情報を適確に発見するための検索ワードは容易に判断がつかないこともある。さらに、安易な検索ワードでは意図する情報の情報以外も多く検索に引っ掛かってしまい、情報の取捨選択が困難となることがある。   In addition, when searching for information from a large-scale text, a search word for accurately finding the intended information may not be easily determined. Furthermore, a simple search word may be caught in a search other than the information of the intended information, and it may be difficult to select information.

これらの問題点に対し、大規模テキストから中心的な意味やトピックを抽出する様々な手法が提案されている。   In response to these problems, various methods for extracting central meanings and topics from large-scale texts have been proposed.

特許文献1に記載された手法は、テキストを形態素解析し、単語や概念をノード、エッジを単語や概念間の共起関係として有効グラフで表現した意味ネットワークを作成し、共起関係が強い単語や概念を見つけ出すことで検索ワードの幅が広がり、より多くの情報を見つけ出す手法である。   The technique described in Patent Document 1 performs morphological analysis of text, creates a semantic network expressing words and concepts as nodes and edges as co-occurrence relationships between words and concepts, and creates words with strong co-occurrence relationships. This is a technique for finding more information by broadening the range of search words by finding out the concept.

特許文献2に記載された手法は、テキストを形態素解析した単語や単語群をノードとするネットワークグラフを用い、ノード間の共起関係の情報に加えて、類義や同義、階層関係など意味を表すエッジをネットワークグラフで表示することで、共起関係だけのネットワークグラフと比較して、より多くの情報量を提示して可読性を高め、検索・分析を支援する手法である。   The technique described in Patent Document 2 uses a network graph that uses words and word groups obtained by morphological analysis of text as nodes, and in addition to information on co-occurrence relationships between nodes, the meanings such as synonyms, synonyms, and hierarchical relationships This is a technique that supports search and analysis by displaying a represented edge in a network graph and presenting a larger amount of information to improve readability compared to a network graph having only co-occurrence relationships.

特開2001−243223号公報JP 2001-243223 A 特開2009−75881号公報JP 2009-75881 A

特許文献1や特許文献2に記載された手法は、大規模テキストから意味やトピックを抽出するための手法であり、前述の問題点の解決に寄与するものである。   The methods described in Patent Document 1 and Patent Document 2 are methods for extracting meanings and topics from large-scale texts, and contribute to solving the above-described problems.

しかし、各手法とも機械的にネットワークグラフを作成して提示するばかりで、ユーザ自身で情報を選択することができる機能はない。   However, each method merely mechanically creates and presents a network graph, and there is no function that allows the user to select information.

また、ネットワークグラフのノード間の関係から検索範囲が広がるという旨は述べられているが、検索範囲を絞り込むといった観点では論じられていない。   Further, although it is stated that the search range is expanded from the relationship between the nodes of the network graph, it is not discussed from the viewpoint of narrowing down the search range.

そこで、本発明では、大規模テキストからユーザが意図する情報もしくは価値ある情報を、ユーザが発見しやすくするための技術を提供することを目的とする。   Therefore, an object of the present invention is to provide a technique for making it easier for a user to find information intended by the user or valuable information from a large-scale text.

本発明は、文書を解析することで得られるワードを一覧表示する表示制御手段と、前記表示制御手段により一覧表示されたワードの選択を受け付けるワード選択受付手段と、前記ワード選択受付手段により選択を受け付けたワードを含むネットワークグラフを作成する作成手段と、を備え、前記表示制御手段は、前記作成手段により作成されたネットワークグラフを表示することを特徴とする情報処理装置。   The present invention provides a display control means for displaying a list of words obtained by analyzing a document, a word selection receiving means for receiving a selection of words displayed by the display control means, and a selection by the word selection receiving means. An information processing apparatus comprising: a creating unit that creates a network graph including the accepted word, wherein the display control unit displays the network graph created by the creating unit.

また、本発明は、情報処理装置に表示制御手段が、文書を解析することで得られるワードを一覧表示する表示制御工程と、前記情報処理装置のワード選択受付手段が、前記表示制御工程により一覧表示されたワードの選択を受け付けるワード選択受付工程と、前記情報処理装置の作成手段が、前記ワード選択受付工程により選択を受け付けたワードを含むネットワークグラフを作成する作成工程と、を備え、前記表示制御工程は、前記作成工程により作成されたネットワークグラフを表示することを特徴とする情報処理方法。   Further, the present invention provides a display control step in which the display control means displays a list of words obtained by analyzing the document on the information processing apparatus, and a word selection accepting means of the information processing apparatus displays the list in the display control step. A word selection receiving step for receiving selection of the displayed word, and a creation step for creating a network graph including a word for which the creation means of the information processing apparatus has accepted the selection in the word selection receiving step, the display The control process displays the network graph created by the creation process.

また、本発明は、情報処理装置において実行可能なプログラムであって、前記情報処理装置を、文書を解析することで得られるワードを一覧表示する表示制御手段と、前記表示制御手段により一覧表示されたワードの選択を受け付けるワード選択受付手段と、前記ワード選択受付手段により選択を受け付けたワードを含むネットワークグラフを作成する作成手段として機能させ、前記表示制御手段を、前記作成手段により作成されたネットワークグラフを表示することを特徴とする手段として機能させることを特徴とするプログラム。   The present invention is also a program executable in an information processing apparatus, wherein the information processing apparatus displays a list of words obtained by analyzing a document, and the display control means displays a list. A word selection accepting unit that accepts selection of the selected word, and a creation unit that creates a network graph including the word accepted by the word selection accepting unit. The display control unit is a network created by the creating unit. A program characterized by functioning as a means for displaying a graph.

本発明によれば、大規模テキストからユーザが意図する情報もしくは価値ある情報を、ユーザが発見しやすくするための技術を提供することが可能となる。   ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to provide the technique for making a user easy to find the information which a user intends or valuable information from a large-scale text.

本発明の実施形態におけるテキスト絞り込みシステムの構成を示す図である。It is a figure which shows the structure of the text narrowing-down system in embodiment of this invention. 本発明の実施形態における情報処理装置のハードウエア構成を示す図である。It is a figure which shows the hardware constitutions of the information processing apparatus in embodiment of this invention. 本発明の実施形態におけるテキストデータの一例である。It is an example of the text data in embodiment of this invention. 本発明の実施形態における分析結果データの一例である。It is an example of the analysis result data in the embodiment of the present invention. 本発明の実施形態における分析処理を示すフローチャートである。It is a flowchart which shows the analysis process in embodiment of this invention. 本発明の実施形態における形態素の連結処理を示すフローチャートである。It is a flowchart which shows the connection process of the morpheme in embodiment of this invention. 本発明の実施形態における形態素解析・係り受け解析の一例である。It is an example of the morphological analysis and dependency analysis in embodiment of this invention. 本発明の実施形態におけるユーザが閲覧・操作を行う全体画面を示す一例である。It is an example which shows the whole screen in which the user in embodiment of this invention browses and operates. 本発明の実施形態におけるモーダルウィンドウを示す一例である。It is an example which shows the modal window in embodiment of this invention. 本発明の実施形態における集計結果を示す一例である。It is an example which shows the total result in the embodiment of the present invention. 本発明の実施形態におけるランキング表の一例である。It is an example of the ranking table | surface in embodiment of this invention. 本発明の実施形態における遷移したランキング表を示す一例である。It is an example which shows the ranking table which changed in embodiment of this invention. 本発明の実施形態におけるワード選択時の処理を示すフローチャートである。It is a flowchart which shows the process at the time of the word selection in embodiment of this invention. 本発明の実施形態におけるネットワークグラフの一例である。It is an example of the network graph in embodiment of this invention. 本発明の実施形態におけるクリック操作の一例である。It is an example of click operation in the embodiment of the present invention. 本発明の実施形態におけるクリック操作の一例である。It is an example of click operation in the embodiment of the present invention. 本発明の実施形態におけるピン止め操作の一例である。It is an example of pinning operation in the embodiment of the present invention. 本発明の実施形態における検索操作の一例である。It is an example of search operation in the embodiment of the present invention. 本発明の実施形態における絞り込み結果表示の一例である。It is an example of the narrowing-down result display in the embodiment of the present invention. 本発明の実施形態におけるワード出現頻度の上昇度を算出するための計算式の一例である。It is an example of the calculation formula for calculating the raise degree of the word appearance frequency in embodiment of this invention.

以下、図面を参照して、本発明の実施形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の実施形態におけるテキスト絞り込みシステムが備える機能構成を示す図である。テキスト絞り込みシステム100は、データベース110と分析処理部120と、集計部130とWEBアプリケーションサーバー140と、ユーザにより操作されるクライアント端末150とを備える。   FIG. 1 is a diagram showing a functional configuration of a text narrowing system according to an embodiment of the present invention. The text narrowing system 100 includes a database 110, an analysis processing unit 120, a totaling unit 130, a WEB application server 140, and a client terminal 150 operated by a user.

ユーザは、クライアント端末150を介してWEBアプリケーションサーバー140に対して指示を出すことが可能である。そして、WEBアプリケーションサーバー140は、クライアント端末150から受信した指示に基づき、各種データをクライアント端末150に送信する。クライアント端末150は、受信した各種データを表示部に表示する。   The user can issue an instruction to the WEB application server 140 via the client terminal 150. Then, the WEB application server 140 transmits various data to the client terminal 150 based on the instruction received from the client terminal 150. The client terminal 150 displays the received various data on the display unit.

なお、本発明のテキスト絞り込みシステムにおけるデータベース110、分析処理部120、集計部130、WEBアプリケーションサーバー140、クライアント端末150がそれぞれ備える機能は、それぞれ別の端末が備えていても、ひとつの端末が全ての機能を備えていてもいずれであっても良い。すなわち、テキスト絞り込みシステムが全体としてひとつの装置(情報処理装置)であっても良いし、複数の端末(情報処理装置)に分かれたシステムであっても良い。   The database 110, the analysis processing unit 120, the totaling unit 130, the WEB application server 140, and the client terminal 150 in the text narrowing system of the present invention have all the functions provided by one terminal even if each terminal has another function. Either of these functions may be provided. That is, the text narrowing system may be a single device (information processing device) as a whole, or may be a system divided into a plurality of terminals (information processing devices).

データベース110は、大規模テキスト(文書)を格納するテキストデータ111と、テキストの形態素解析、係り受け解析結果である単語もしくは連結単語の頻度情報と係り受け情報を格納する分析結果データ112とを備える。連結単語とは単語を結合したものであり、以下、単語もしくは連結単語のことを総じてワードと呼ぶ。   The database 110 includes text data 111 for storing large-scale text (documents), and analysis result data 112 for storing frequency information of words or connected words that are morphological analysis and dependency analysis results of text and dependency information, and dependency information. . A connected word is a combination of words. Hereinafter, a word or a connected word is collectively referred to as a word.

図2は、クライアント端末150、WEBアプリケーションサーバー140に適用可能な情報処理装置のハードウエア構成を示す図である。   FIG. 2 is a diagram illustrating a hardware configuration of an information processing apparatus applicable to the client terminal 150 and the WEB application server 140.

以下、図2を用いて、図1に示したテキスト絞り込みシステムにおける情報処理装置のハードウエア構成の一例について説明する。   Hereinafter, an example of the hardware configuration of the information processing apparatus in the text narrowing system shown in FIG. 1 will be described with reference to FIG.

図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な各種プログラム等が記憶されている。   In FIG. 2, reference numeral 201 denotes a CPU that comprehensively controls each device and controller connected to the system bus 204. Further, the ROM 203 or the external memory 211 is necessary to realize a BIOS (Basic Input / Output System) or an operating system program (hereinafter referred to as an OS), which is a control program of the CPU 201, or a function executed by each server or each PC. Various programs are stored.

202はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM203あるいは外部メモリ211からRAM202にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。   A RAM 202 functions as a main memory, work area, and the like for the CPU 201. The CPU 201 implements various operations by loading a program necessary for execution of processing from the ROM 203 or the external memory 211 into the RAM 202 and executing the loaded program.

また、205は入力コントローラで、入力装置209等からの入力を制御する。206はビデオコントローラで、液晶ディスプレイ等のディスプレイ装置210への表示を制御する。なお、ディスプレイ装置は、液晶ディスプレイに限られず、CRTディスプレイなどであっても良い。これらは必要に応じてクライアントが使用するものである。   An input controller 205 controls input from the input device 209 or the like. A video controller 206 controls display on a display device 210 such as a liquid crystal display. The display device is not limited to a liquid crystal display, and may be a CRT display or the like. These are used by clients as needed.

207はメモリコントローラで、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶するハードディスク(HD)や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。   A memory controller 207 is connected to the hard disk (HD), flexible disk (FD), or PCMCIA card slot for storing a boot program, various applications, font data, user files, editing files, various data, etc. via an adapter. The access to the external memory 211 such as a compact flash (registered trademark) memory is controlled.

208は通信I/Fコントローラで、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。   A communication I / F controller 208 connects and communicates with an external device via a network, and executes communication control processing on the network. For example, communication using TCP / IP is possible.

なお、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ装置210上での表示を可能としている。また、CPU201は、ディスプレイ装置210上の不図示のマウスカーソル等でのユーザ指示を可能とする。   Note that the CPU 201 enables display on the display device 210 by executing outline font rasterization processing on a display information area in the RAM 202, for example. Further, the CPU 201 enables a user instruction with a mouse cursor (not shown) on the display device 210.

ハードウエア上で動作する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM202にロードされることによりCPU201によって実行されるものである。   Various programs that operate on the hardware are recorded in the external memory 211 and are executed by the CPU 201 by being loaded into the RAM 202 as necessary.

なお、全ての装置がこれらの構成を備えているわけではなく、必要なものを備えていればよい。   It should be noted that not all apparatuses have these configurations, and it is only necessary to have necessary ones.

図3は、テキストデータ111の一例を示す図である。テキストデータ111は、データを一意に識別するidと作成された日時と、テキストのタイトルと本文とURLと、テキストデータの収集を行った媒体や収集に用いた検索キーなどをタグとして保持する。タグはテキストデータを収集するときに複数もしくはタグなしでも自由に設定することができる。例えば、ネット上のSNSからカメラに関するテキストデータを収集した場合は「SNS、カメラ」といったようにタグを設定する。タグを設定することで、分析に用いるデータの絞り込みを行う。   FIG. 3 is a diagram illustrating an example of the text data 111. The text data 111 holds, as tags, an id for uniquely identifying the data, a created date and time, a text title, a body, a URL, a medium on which the text data is collected, a search key used for the collection, and the like. Tags can be freely set even when there are multiple or no tags when collecting text data. For example, when text data relating to a camera is collected from an SNS on the network, a tag is set such as “SNS, camera”. By setting tags, the data used for analysis is narrowed down.

テキストデータの収集にあたっては、専用のデータ収集APIが存在するものについては、定期的(バッチ処理、差分処理)にAPIを実行してデータ収集し、検索キーワードや媒体名(SNSの名称など)などをタグとして登録する。   When collecting text data, if there is a dedicated data collection API, the API is executed periodically (batch processing, differential processing) to collect data, search keywords, media names (SNS names, etc.), etc. Is registered as a tag.

例えば、Tweitter APIを用いて“キヤノン,カメラ”という検索ワードで収集したデータは、[キヤノン,カメラ,twetter]というタグ(リスト)を付けて、タイトルは空欄でDBに格納するということになる。   For example, data collected by the search word “Canon, camera” using the Twitter API is attached with a tag (list) of [Canon, camera, twitter], and the title is blank and stored in the DB.

また、WEB上のデータでデータ収集APIが存在しないものについては、該当ページのRSSやHTML・XML解析などを行い定期的にデータ収集し、媒体名(サイト名やブログ名など)などをタグとしてDBに格納する。   In addition, for data on the WEB that does not have a data collection API, RSS or HTML / XML analysis of the corresponding page is performed and data is collected regularly, and the media name (site name, blog name, etc.) is used as a tag. Store in DB.

例えば、ニュースのまとめサイトのRSSから収集したデータは、「ニュース記事」というタグを付け、タイトルとURLをあわせてDBに格納する。   For example, data collected from RSS of a news summary site is tagged with a “news article” and the title and URL are stored together in the DB.

図4は、分析結果データ112の一例を示す図である。例として図3のid=1のデータの分析結果例を示す。分析結果データ112はテキストデータ111のどのデータの分析結果なのかを示すidと、分析処理部によって抽出された係り受け関係と係り受け関係頻度と、名詞情報と名詞情報頻度と、形容詞情報と形容詞情報頻度と、動詞情報と動詞情報頻度とを保持する。形容詞情報と動詞情報は、テキストから取得した原文とともに、その形態素の終止形を保持する。形容詞と動詞において終止形を保持するのは、形態素の活用における表現のばらつきを集約し、同形態素の頻度をまとめるためである。分析処理部の詳細については後述する。   FIG. 4 is a diagram illustrating an example of the analysis result data 112. As an example, an analysis result example of data of id = 1 in FIG. 3 is shown. The analysis result data 112 is an id indicating which data of the text data 111 is analyzed, a dependency relationship and dependency relationship frequency extracted by the analysis processing unit, noun information and noun information frequency, adjective information and adjective. Information frequency, verb information, and verb information frequency are held. The adjective information and verb information hold the final form of the morpheme together with the original text acquired from the text. The reason why the adjectives and verbs hold the final form is to aggregate the variation of expressions in the use of morphemes and to summarize the frequency of the same morphemes. Details of the analysis processing unit will be described later.

次に図5を用いて、分析処理部120における分析処理について説明する。図5に示す処理によれば、分析処理部120はテキストデータ111からテキスト本文を取得し分析を実行し、分析結果を集計して分析結果データ112への登録または更新を行う。なお、テキストデータ取得時には分析が未実行の差分データのみを取得し、分析処理は30分間隔などで定期的に自動実行されるものとする。   Next, analysis processing in the analysis processing unit 120 will be described with reference to FIG. According to the process shown in FIG. 5, the analysis processing unit 120 acquires the text body from the text data 111 and executes the analysis, aggregates the analysis results, and registers or updates the analysis result data 112. It is assumed that at the time of text data acquisition, only differential data that has not been analyzed is acquired, and the analysis processing is automatically executed periodically at intervals of 30 minutes.

ステップS501では、テキストデータ111からテキスト本文を取得し1文ごとに分割する。文と文の切れ目は句点や全角スペース、閉じ括弧などで判断する。   In step S501, the text body is acquired from the text data 111 and divided into sentences. Sentences between sentences are judged by using punctuation marks, full-width spaces, closing parentheses, etc.

そして、ステップS501で分割した各文に対してステップS503〜ステップS506の処理を繰り返し実行する(ステップS502)。   Then, the processes in steps S503 to S506 are repeatedly executed for each sentence divided in step S501 (step S502).

ステップS503では、形態素解析・係り受け解析を実行し、文を文節、形態素に分割する。そして、形態素の品詞と終止形、および、文節間の係り受け情報を取得する。   In step S503, morphological analysis and dependency analysis are executed, and the sentence is divided into clauses and morphemes. Then, the morpheme part-of-speech, end form, and dependency information between phrases are acquired.

ここで、図7を用いて、「高かったけどすごく良いので、この商品を買いました。」という文の解析例を示す。なお、形態素解析・係り受け解析については既存技術を用いて実現することが可能であるため、ここでの詳細な説明は省略する。   Here, FIG. 7 shows an analysis example of a sentence “I bought this product because it was expensive but very good”. Note that morphological analysis and dependency analysis can be implemented using existing technology, and thus detailed description thereof is omitted here.

図7に示すように、「高かったけどすごく良いので、この商品を買いました。」という文が、「高かったけど」、「すごく」、「良いので」、「この」、「商品を」、「買いました。」という6つの文節に分割されている。   As shown in Fig. 7, the sentence "I bought this product because it was expensive but very good" was "It was expensive", "Very", "It's good", "This", "Product" , It is divided into six clauses "I bought it."

さらに例えば「高かったけど」という文節は、「高かっ」、「た」、「けど」という3つの形態素に分割され、それぞれの品詞は形容詞、助動詞、接続助詞であり、それぞれの終止形は「高い」、「た」、「けど」であることを示している。   In addition, for example, the phrase “It was high” is divided into three morphemes, “High”, “Ta”, and “Bad”, and each part of speech is an adjective, auxiliary verb, and connective particle. ”,“ Ta ”,“ Bad ”.

また、「高かったけど」の係り受け先の文節は「良いので」であることを示している。   In addition, it shows that the clause of the dependency of “It was expensive” is “Because it is good”.

なお、「買いました。」の係り受け先の文節は「なし」となっているが、これは係り受け先の文節が無いことを示している。 In addition, although the clause of the dependency destination of “I bought” is “None”, this indicates that there is no clause of the dependency destination.

他の文節についても同様に解析された結果を示しているが、詳細の説明は省略する。   Although the results of similar analysis are shown for other clauses, detailed description is omitted.

次に、ステップS503で取得した各文節に対してステップS505〜S506の処理を繰り返し実行する(ステップS504)。   Next, the processes in steps S505 to S506 are repeatedly executed for each phrase acquired in step S503 (step S504).

ステップS505では、各文節に対して形態素の連結処理を実行する。   In step S505, a morpheme concatenation process is executed for each phrase.

ここで、ステップS505の形態素の連結処理について、図6のフローチャートを用いて説明する。   Here, the morpheme concatenation process in step S505 will be described with reference to the flowchart of FIG.

まず、文節中の形態素を順次走査し、各形態素に対してステップS602〜S604の処理を実行する。   First, the morphemes in the phrase are sequentially scanned, and the processes in steps S602 to S604 are executed for each morpheme.

ステップS602では、形態素の品詞を識別し形容詞または動詞であればステップS603の形容詞・動詞の連結処理へ、名詞であればステップS604の名詞の連結処理を行い、上記以外の品詞ならば文節中の次の形態素の処理へ移る。   In step S602, the morpheme part of speech is identified. If it is an adjective or verb, the adjective / verb concatenation process in step S603 is performed. If it is a noun, the noun concatenation process in step S604 is performed. Move to next morpheme processing.

ステップS603では、処理対象の形態素の後ろに続く形態素の品詞が形容詞または動詞、または格助詞を除く助詞であれば形態素の連結を繰り返し実行し、文節の終端もしくは連結条件を満たさなければ本フローチャートの処理を終える。   In step S603, if the morpheme part of speech following the morpheme to be processed is an adjective or verb or a particle excluding a case particle, morpheme concatenation is repeatedly executed. Finish the process.

ステップS604では、処理対象の形態素の後ろに続く形態素の品詞が名詞であれば形態素の連結を繰り返し実行し、文節の終端もしくは連結条件を満たさなければ本フローチャートの処理を終える。
図5の説明に戻る。
In step S604, if the part of speech of the morpheme that follows the morpheme to be processed is a noun, the morpheme is repeatedly connected. If the end of the phrase or the connection condition is not satisfied, the process of this flowchart ends.
Returning to the description of FIG.

ステップS506ではステップS103、ステップ105で取得した形態素の終止形と連結語、係り受けの頻度を集計し、一覧を作成し、分析結果データ112へ登録・更新を行う。
そして、図5のフローチャートの処理を終了する。
In step S506, the end forms of morphemes obtained in steps S103 and 105, concatenated words, and dependency frequencies are totaled, a list is created, and the analysis result data 112 is registered / updated.
Then, the process of the flowchart of FIG.

集計部130は、ユーザがWEBアプリケーションサーバー140に対する指示により指定した日時やタグを用いて、データベース110からユーザが要望する分析結果データ112を取得し、集計結果をWEBアプリケーションサーバー140に返す。   The totaling unit 130 acquires the analysis result data 112 desired by the user from the database 110 using the date and time and tag specified by the user according to the instruction to the WEB application server 140, and returns the totaling result to the WEB application server 140.

次に、WEBアプリケーションサーバー140がテキスト絞り込みシステム100のユーザに提示する画面(クライアント端末150に表示する画面)とユーザによる操作方法について説明する。   Next, a screen (screen displayed on the client terminal 150) presented to the user of the text narrowing system 100 by the WEB application server 140 and an operation method by the user will be described.

図8はユーザが情報を絞り込むための検索ワードを探索し、また、絞り込んだ情報を閲覧する全体画面の一例である。   FIG. 8 shows an example of an entire screen where the user searches for a search word for narrowing down information and browses the narrowed down information.

当該全体画面には、読み込む分析結果を選択するためのタグや日時を設定する分析設定ボタン200と、係り受けと名詞と、形容詞と動詞のランキング表300(ワードが一覧表示された領域)と、リアルタイムに操作できるネットワークグラフ400と、ネットワークグラフから選択した検索ワードで絞り込んだ情報(当該ワードを含む文書の原文)を提示する絞り込み結果表示欄500とが含まれている。
分析設定ボタン200について、図9を用いて説明する。
The entire screen includes an analysis setting button 200 for setting a tag and a date for selecting an analysis result to be read, a dependency, a noun, an adjective and a verb ranking table 300 (an area in which words are displayed in a list), A network graph 400 that can be operated in real time and a narrowing result display column 500 that presents information narrowed down by a search word selected from the network graph (original text of a document including the word) are included.
The analysis setting button 200 will be described with reference to FIG.

ユーザにより分析設定ボタン200が押下されると、図8に示す画面上などに図9で示すモーダルウィンドウ900が表示される。   When the analysis setting button 200 is pressed by the user, a modal window 900 shown in FIG. 9 is displayed on the screen shown in FIG.

モーダルウィンドウ900においてユーザから日時やタグの選択がなされ、読み込みボタンが押下されることで、集計部130がデータベース110からユーザが要望する分析結果(選択された日時やタグにより特定される結果)とワードの上昇度とを取得する。そして、取得した分析結果を集計した集計結果をWEBアプリケーションサーバー140に返す。
上昇度と集計結果の説明については後述する。
When the user selects a date and time and a tag in the modal window 900 and presses a read button, the totaling unit 130 analyzes the result desired by the user from the database 110 (result specified by the selected date and tag). Get the word rise and. Then, a total result obtained by totaling the acquired analysis results is returned to the WEB application server 140.
The explanation of the degree of increase and the total result will be described later.

そして、WEBアプリケーションサーバー140は、集計部130から取得した情報から、ランキング表300に提示する内容と、ネットワークグラフ400に描画するグラフ構造データを作成する。   Then, the WEB application server 140 creates the contents to be presented in the ranking table 300 and the graph structure data to be drawn on the network graph 400 from the information acquired from the totaling unit 130.

ランキング表300に提示する内容とネットワークグラフ400の作成についての説明は後述する。   The contents presented in the ranking table 300 and the creation of the network graph 400 will be described later.

なお、読み込みボタンを押下もしくはモーダルウィンドウ900以外の場所をマウスの左クリックなどで選択されるとモーダルウィンドウ900は閉じるものとする。   Note that the modal window 900 is closed when the read button is pressed or a place other than the modal window 900 is selected by left-clicking the mouse or the like.

次に図10を用いて、上昇度と集計結果の一例を説明する。集計結果は、集計部130が分析結果データ112から取得した情報を集計し、係り受け関係、名詞情報、形容詞情報、動詞情報、それぞれのワードとその頻度と上昇度などの情報である。   Next, an example of the degree of increase and the total result will be described with reference to FIG. The tabulation result is information such as dependency relationship, noun information, adjective information, verb information, each word, its frequency, and degree of increase, which is obtained by tabulating information acquired from the analysis result data 112 by the tabulation unit 130.

上昇度はユーザがモーダルウィンドウ900で指定した期間と比較期間とのワードの出現頻度(出現回数)の比を計算することで、比較期間と比べて、指定された期間でのワードがどれだけ多く出現しているかを表す指数である。なお、比較期間は全期間や前月、前週や前日などである。   The degree of increase is calculated by calculating the ratio of the appearance frequency (number of appearances) of the word between the period specified by the user in the modal window 900 and the comparison period, so that how many words are in the specified period compared to the comparison period. It is an index that indicates whether it has appeared. The comparison period is the entire period, the previous month, the previous week, the previous day, or the like.

上昇度の計算式例を図20に示すが、これに限定されるものではなく、他の計算方法によって算出することも可能である。   An example of the formula for calculating the degree of increase is shown in FIG. 20, but is not limited to this, and can be calculated by other calculation methods.

ランキング表300は、集計部130から取得した集計結果を用いて、係り受けと名詞と形容詞と動詞のそれぞれについて、頻度もしくは上昇度順にワードを提示した一覧表である。
図11を用いてランキング表300について説明する。
The ranking table 300 is a list in which words are presented in the order of frequency or increasing degree for each of the dependency, the noun, the adjective, and the verb using the counting result acquired from the counting unit 130.
The ranking table 300 will be described with reference to FIG.

図11では形容詞のランキング表の例についての図であるが、係り受けや名詞、動詞のランキング表についても同様の構成である。   Although FIG. 11 shows an example of the adjective ranking table, the same is true for the dependency, noun, and verb ranking tables.

まず、ランキング表300の表示内容について説明する。ランキング表300にはワードを表示するワード欄(図11の例では、「良い」「欲しい」「高い」などが表示されている)とワードの出現頻度を表示する頻度欄(図11の例では、「良い」は317、「欲しい」は256、などの値が表示されている)と、ワードの上昇度を表示する上昇度欄(図11の例では、「良い」は水平の矢印(横向き矢印)、「欲しい」は上向きの矢印、「高い」は下向きの矢印で表示されている)を備える。   First, the display contents of the ranking table 300 will be described. In the ranking table 300, a word column for displaying words (in the example of FIG. 11, “good”, “want”, “high”, etc. are displayed) and a frequency column for displaying the appearance frequency of words (in the example of FIG. 11). , “Good” has a value of 317, “Want” has a value of 256, etc.) and a degree column for displaying the degree of word rise (in the example of FIG. 11, “Good” is a horizontal arrow (horizontal Arrow), “desired” is indicated by an upward arrow, and “high” is indicated by a downward arrow).

形容詞と動詞のランキング表300のワード欄には、あらかじめ単語の終止形を表示し、連結語が存在すれば必要に応じて連結語の情報を表示する。形容詞と動詞のランキング表300における連結語の表示についての説明は後述する。   In the word column of the adjective and verb ranking table 300, the word end form is displayed in advance, and if there is a connected word, information on the connected word is displayed as necessary. The display of the connected words in the adjective and verb ranking table 300 will be described later.

係り受けや名詞のランキング表300のワード欄には当初から連結語の情報を表示する。上昇度欄には上昇度の値により矢印などの画像を表示することで、比較期間との比をより分かりやすく提示する。例えば、上昇度が0〜1の値をとり、1に近いほど指定期間の単語または連結語の頻度が多いとする場合、上昇度が0.4未満は下向き矢印、上昇度が0.4以上0.7未満は横向き矢印、上昇度が0.7以上は上向き矢印を表示する。   In the word column of the dependency and noun ranking table 300, information on connected words is displayed from the beginning. By displaying an image such as an arrow according to the value of the degree of increase in the degree of increase column, the ratio with the comparison period is presented in an easy-to-understand manner. For example, when the degree of increase is 0 to 1, and the closer to 1, the more frequently the words or connected words in the specified period are, the upward degree is less than 0.4 and the upward degree is 0.4 or more. When the value is less than 0.7, a horizontal arrow is displayed, and when the degree of increase is 0.7 or more, an upward arrow is displayed.

次に、ランキング表300の機能について説明する。ランキング表300には頻度が上位のワード情報を数件程度表示する。表示しきれないワード情報はページネーションで順次閲覧できるページネーションボタン320と、全体の中で何件目をランキング表300に表示しているかの情報を表示する件数表示310と、全てのワードを頻度もしくは上昇度の昇順または降順でソートしてランキング表300の表示内容を並び替えるソートボタン330と、ランキング表300内のワードを検索する検索窓340を備える。   Next, functions of the ranking table 300 will be described. The ranking table 300 displays several words information having a higher frequency. Word information that cannot be displayed is a pagination button 320 that can be browsed sequentially by pagination, a number display 310 that displays information on what is displayed in the ranking table 300 in the whole, and frequency of all words Alternatively, a sort button 330 for sorting the display contents of the ranking table 300 by sorting in ascending or descending order of the degree of increase and a search window 340 for searching for words in the ranking table 300 are provided.

また、ランキング表300のワード欄がマウスの左クリックなどで選択されると、当該選択されたワードが、図14に示すネットワークグラフ400のノードとして追加される。   Further, when the word column of the ranking table 300 is selected by left-clicking the mouse or the like, the selected word is added as a node of the network graph 400 shown in FIG.

ただし、ランキング表300が形容詞または動詞の場合、ワードが選択されると、選択されたワードと紐づく連結語の情報が図12に示すように表示され、さらにワードが選択されることでネットワークグラフ400のノードとして追加される。   However, in the case where the ranking table 300 is an adjective or a verb, when a word is selected, information of a connected word associated with the selected word is displayed as shown in FIG. It is added as 400 nodes.

図12は図11のワード欄の「良い」が選択されたときの例である。なお、図12の表内がマウスの右クリックなどで選択されると元の表示に戻るものとする。   FIG. 12 shows an example when “good” is selected in the word column of FIG. It is assumed that the original display is restored when the table in FIG. 12 is selected by right-clicking the mouse or the like.

ネットワークグラフ400とワード選択によるネットワークグラフ400へのノード追加処理についての詳細は後述する。   Details of the node addition processing to the network graph 400 by the network graph 400 and word selection will be described later.

次に、ネットワークグラフ400について説明する。ネットワークグラフ400は集計部130から取得した集計結果をもとに、ワードをノード、係り受け関係があるワードのノード間にエッジを付けたグラフである。   Next, the network graph 400 will be described. The network graph 400 is a graph in which a word is a node and an edge is added between nodes of a word having a dependency relationship based on the aggregation result acquired from the aggregation unit 130.

ワードや、係り受け関係が持つ情報によってノードの大きさや色と、エッジの色と太さを決定する。   The size and color of the node and the color and thickness of the edge are determined based on the information of the word and the dependency relationship.

例えば、ワードの出現頻度が高い場合にはノードの円の直径を大きくするといったように、ワードの出現頻度によってノードの円の直径を決定する。また、品詞の種類によってノードの色を決定する。また、当該エッジによりつながれるワード同士係り受け関係の頻度によってエッジの太さを決定する(例えば頻度が高ければ太くする)。なお、係り受け関係の順序を考慮し、エッジに方向を付けた有効グラフで表示してもよい。   For example, the diameter of the node circle is determined based on the appearance frequency of the word, such as increasing the diameter of the node circle when the appearance frequency of the word is high. Also, the node color is determined according to the type of part of speech. Further, the thickness of the edge is determined based on the frequency of the dependency relationship between the words connected by the edge (for example, the thickness is increased if the frequency is high). In addition, in consideration of the order of the dependency relationship, the graph may be displayed as an effective graph with the edges directed.

次に、図13を用いてランキング表300のワードが選択された場合の処理について説明する。   Next, processing when a word in the ranking table 300 is selected will be described with reference to FIG.

ステップS1301では、集計結果から選択されたワードの情報を取得する。   In step S1301, information on the word selected from the counting result is acquired.

ステップS1302では、ステップS1301で取得した情報に基づき、係り受け関係が存在するか否かを判断する。   In step S1302, it is determined whether a dependency relationship exists based on the information acquired in step S1301.

係り受け関係が存在する場合(ステップS1302:YES)は、処理をステップS1303に移行する。   If there is a dependency relationship (step S1302: YES), the process proceeds to step S1303.

係り受け関係が存在しない場合(ステップS1302:NO)は、処理をステップS1304に移行する。   If there is no dependency relationship (step S1302: NO), the process proceeds to step S1304.

ステップS1303では、既定回数の係り受け関係においてステップS1303の処理を実行し、集計結果の情報をもとにネットワークグラフ400へノードとエッジを表示する。   In step S1303, the process of step S1303 is executed in a predetermined number of dependency relationships, and the nodes and edges are displayed on the network graph 400 based on the information of the aggregation results.

係り受け関係が存在しない場合(S1304)は、選択ワードをノードとして表示する。
既定回数とは、表示するノードやエッジが多くなり過ぎないように、係り受け頻度の多い順などであらかじめ表示するエッジの数を制限するための閾値である。図14はワード選択時の既定回数を3としたとき、図12の形容詞のランキング表から「良いので」を選択した場合のネットワークグラフ400での表示例である。
If there is no dependency relationship (S1304), the selected word is displayed as a node.
The predetermined number of times is a threshold value for limiting the number of edges to be displayed in advance in order of decreasing dependency frequency so that the number of nodes and edges to be displayed does not become excessive. FIG. 14 is a display example on the network graph 400 when “good” is selected from the adjective ranking table of FIG.

図14に示すように、「良いので」というノードから3つのエッジが伸び、それぞれ「すごく」、「買いました」、「高かったけど」のノードにつながっている。   As shown in FIG. 14, three edges extend from a node “good because” and are connected to nodes “very”, “bought”, and “high”, respectively.

次にネットワークグラフ400におけるユーザ操作の受け付けと、それに対応する機能について説明する。   Next, reception of user operations in the network graph 400 and functions corresponding thereto will be described.

機能は大きく分けて3つあり、ノードとエッジの追加・削除機能と、ノードのピン止め機能と、ノードの検索ワードの追加・削除機能である。以下、各機能について図を用いて説明する
まず、ノードとエッジの追加・削除機能について説明する。
There are roughly three functions: a node / edge addition / deletion function, a node pinning function, and a node search word addition / deletion function. Each function will be described below with reference to the drawings. First, a function for adding / deleting nodes and edges will be described.

ユーザにより、例えばノードをマウスの左クリックなどで選択されるといった操作を受け付けると、選択されたノードのワードを取得し、図13のフローチャートで示すワード選択時の処理を実行する。   When the user accepts an operation such as selecting a node by, for example, left-clicking the mouse, the word of the selected node is acquired, and the word selection process shown in the flowchart of FIG. 13 is executed.

図13に示す処理により、ノードとエッジが既定回数だけ追加表示されるとともに、選択ノードから既定距離以上離れたノードとエッジをネットワークグラフ400から自動削除する。   With the process shown in FIG. 13, nodes and edges are additionally displayed a predetermined number of times, and nodes and edges that are more than a predetermined distance away from the selected node are automatically deleted from the network graph 400.

既定距離とは、ネットワークグラフ400に表示するエッジやノードが多くなり過ぎないように、エッジ1つ分を距離1としたときの閾値である。また、ノードやエッジの位置はネットワークグラフ400の表示枠に合わせて自動補正される。   The predetermined distance is a threshold when one edge is set as the distance 1 so that the number of edges and nodes displayed on the network graph 400 does not become excessive. Further, the positions of nodes and edges are automatically corrected according to the display frame of the network graph 400.

以後、この操作(ユーザがノードをマウスの左クリックなどで選択する操作など、ノードとエッジを追加するための所定の操作)をクリック操作と呼ぶ。   Hereinafter, this operation (a predetermined operation for adding a node and an edge, such as an operation in which the user selects a node with a left click of the mouse) will be referred to as a click operation.

既定回数と既定距離をそれぞれ3としたときのクリック操作の例について説明する。   An example of the click operation when the predetermined number of times and the predetermined distance are 3 will be described.

図14の「すごく」というノードをクリック操作したときの例が図15である。   FIG. 15 shows an example when the “very” node of FIG. 14 is clicked.

「すごく」と係り受け関係にある「評判」と「綺麗」というノードとそれに繋がるエッジが追加表示され、全体の位置が自動補正されている。   Nodes of “Reputation” and “Beautiful” that have a dependency relationship with “Very” and additional edges are displayed, and the entire position is automatically corrected.

さらに、図15のノード「綺麗」をクリック操作したときの例が図16である。   Furthermore, FIG. 16 shows an example when the node “beautiful” in FIG. 15 is clicked.

「綺麗」と係り受け関係にある「写真」と「撮れる」というノードとそれに繋がるエッジが追加表示され、既定距離以上離れている「買いました」と「高かったけど」というノードとそれに繋がるエッジが自動削除され、全体の位置が自動補正されている。すなわち、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合には、当該所定の数に収まるように末端のノードを削除したネットワークグラフが作成される。
次に、ノードのピン止め機能について説明する。
The nodes “photograph” and “capable of taking” that are related to “beautiful” and the edges connected to them are additionally displayed, the nodes “bought” and “high” that are more than the predetermined distance and the edges connected to it Is automatically deleted, and the entire position is automatically corrected. That is, when the number of edges connecting from a terminal node to another terminal node exceeds a predetermined number, a network graph is created by deleting the terminal nodes so that the predetermined number is reached.
Next, the node pinning function will be described.

ピン止め機能とは、ユーザにより、例えばノードをマウスの右クリックなどで選択されるといった操作を受け付けることでピン止めを行うことができる機能である。   The pinning function is a function that can be pinned by receiving an operation in which a user selects a node by, for example, right-clicking the mouse.

ピン止めを行うと、既定距離以上離れてもピン止めをしたノードと新たに選択するノード間に存在するエッジとノードは自動削除されなくなる。   When pinning is performed, edges and nodes existing between a pinned node and a newly selected node are not automatically deleted even if they are separated by a predetermined distance or more.

すなわち、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合であっても、当該末端のノードに対して表示し続ける旨の指示(ピン止め操作)がなされている場合、当該ノードは削除せずにネットワークグラフが作成される。   That is, even when the number of edges connecting from the terminal node to the other terminal node exceeds a predetermined number, an instruction (pinning operation) is given to continue displaying the terminal node. In this case, the network graph is created without deleting the node.

ピン止めしたノードにはノードの上部にピン止めアイコンが表示され、再度選択することでピン止めをキャンセルすることができる。   A pinned icon is displayed at the top of the node that has been pinned, and pinning can be canceled by selecting it again.

以後、この操作(ユーザがノードをマウスの右クリックなどで選択する操作など、ノードをピン止めするための所定の操作)をピン止め操作と呼ぶ。   Hereinafter, this operation (a predetermined operation for pinning a node, such as an operation in which the user selects a node by right-clicking the mouse) will be referred to as a pinning operation.

既定回数と既定距離をそれぞれ3としたときのピン止め操作の例について説明する。   An example of the pinning operation when the predetermined number of times and the predetermined distance are 3 will be described.

図15の「買いました」というノードをピン止め操作したあとに「綺麗」というノードをクリック操作したときの例が図17であり、「買いました」というノードの上部にはピン止めアイコン410が表示される。また、図16に示すネットワークグラフとは異なり、「綺麗」と「買いました」の間に存在するエッジとノードとは自動削除されず表示されたままとなっている。   FIG. 17 shows an example in which the “clean” node is clicked after the “buy” node in FIG. 15 is pinned, and a pinning icon 410 is displayed above the “buy” node. Is displayed. Further, unlike the network graph shown in FIG. 16, the edges and nodes existing between “beautiful” and “bought” remain displayed without being automatically deleted.

次に、ノードの検索ワード追加・削除機能について説明する。   Next, the node search word addition / deletion function will be described.

ユーザにより、例えばノードをマウスの左ダブルクリックなどで選択されるといった操作を受け付けると、選択されたノードのワードが検索ワードとして登録される。   When the user accepts an operation such as selecting a node with a left double click of the mouse, for example, the word of the selected node is registered as a search word.

そして、登録された検索ワードを用いてテキストデータ111を検索し、検索結果を絞り込み結果表示欄500に表示する。   Then, the text data 111 is searched using the registered search word, and the search result is displayed in the narrowed-down result display column 500.

検索ワードには複数のワードを登録することができ、検索ワードに登録されているノードの下部には検索ワード登録アイコン(図18の420)が表示され、再度選択することで登録を削除することができる。また、既定距離などの制限で選択ノードがネットワークグラフ400から消去されると、自動的に登録検索ワードから該当ワードが削除される。以後、この操作(ユーザがノードをマウスの左ダブルクリックなどで選択するなど、検索ワード登録のための所定の操作)を検索操作と呼ぶ。   A plurality of words can be registered in the search word, and a search word registration icon (420 in FIG. 18) is displayed below the node registered in the search word, and the registration can be deleted by selecting again. Can do. When the selected node is deleted from the network graph 400 due to restrictions such as a predetermined distance, the corresponding word is automatically deleted from the registered search word. Hereinafter, this operation (a predetermined operation for registering a search word such as a user selecting a node with a left double click of the mouse) will be referred to as a search operation.

検索操作の例について説明する。図17において「綺麗」と「撮れる」と「買いました」というノードを検索操作したときのネットワークグラフの例が図18であり、「綺麗」と「撮れる」と「買いました」というノードの下部に検索ワード登録アイコン420が表示される。そして、登録された検索ワードとモーダルウィンドウ900でユーザが指定した期間とタグを用いてテキストデータ111から「綺麗」と「撮れる」と「買いました」というワードがテキスト本文またはタイトルに存在するテキストデータを取得し、絞り込み結果表示欄500(図19)に一覧表示される。   An example of a search operation will be described. FIG. 18 shows an example of a network graph when searching for the nodes “beautiful”, “captured” and “purchased” in FIG. 17, and the nodes of the nodes “clean”, “capable” and “buy” are shown. A search word registration icon 420 is displayed at the bottom. Then, using the registered search word and the period and tag specified by the user in the modal window 900, the text “111”, “Take” and “Buy” words from the text data 111 are present in the text body or title. Data is acquired and displayed in a list in the refined result display field 500 (FIG. 19).

次に図19を用いて絞り込み結果表示欄500について説明する。   Next, the narrowing-down result display column 500 will be described with reference to FIG.

絞り込み結果表示欄500は、テキストデータ111のタイトルを表示するタイトル欄と、テキスト本文を表示するテキスト欄と、タグを表示するタグ欄を備える。タイトル欄では、検索ワードと一致するワードが存在すれば、そのワードを強調表示する。また、URLが存在する場合はタイトルにURLのリンクを付けて表示する。   The refinement result display field 500 includes a title field for displaying the title of the text data 111, a text field for displaying the text body, and a tag field for displaying a tag. In the title column, if there is a word that matches the search word, the word is highlighted. If a URL exists, the title is displayed with a URL link.

強調表示の一例としては、例えば一致するワードにハイライトを付けて表示するなどである。テキスト欄では、表示するテキストが長くなり過ぎないように制限をかけるとともに、検索ワードと一致するワードが分かるように強調して表示する。   As an example of highlighting, for example, a matching word is highlighted and displayed. In the text column, the text to be displayed is restricted so as not to be too long, and is highlighted so that a word that matches the search word can be seen.

例えば、検索ワードを含む文をのみをテキスト本文から抜き出し、検索ワードと一致するワードにハイライトを付けて表示するなどである。   For example, only the sentence including the search word is extracted from the text body, and the word that matches the search word is highlighted and displayed.

また、モーダルウィンドウ900でユーザが指定した期間を表示する指定期間表示510と、全検索結果の中で何件目を絞り込み結果表示欄500に表示しているかの情報を表示する件数表示520と、表示しきれなかった検索結果をページネーションで順次閲覧できるページネーションボタン530と、モーダルウィンドウ900でユーザが指定したタグや、テキストのタイトルで並び替えを行うソートボタン540と、絞り込み結果表示欄500内を検索する検索窓550を備える。   In addition, a designated period display 510 for displaying a period designated by the user in the modal window 900, a number display 520 for displaying information on what items are displayed in the narrowed-down result display column 500 among all search results, The pagination button 530 for sequentially browsing the search results that could not be displayed by pagination, the sort button 540 for sorting by the tag specified by the user in the modal window 900, the title of the text, and the refined result display field 500 A search window 550 is provided for searching for.

この絞り込み結果表示欄500を用いることで、ユーザは、大規模テキストから意図した情報または興味ある情報を確認することができ、情報を検索するコストを少なくして大規模テキストから情報を取得することができる。   By using this narrowing-down result display column 500, the user can confirm intended information or interesting information from a large-scale text, and can acquire information from the large-scale text at a reduced cost for searching for information. Can do.

以上説明したように、本発明によれば、テキスト絞り込みシステム100のユーザは、モーダルウィンドウ900を介して設定をすることでシステムの利用が可能になり、ランキング表300とネットワークグラフ400と絞り込み結果表示欄500を相互に確認し操作することで、自身が望む情報を取得するための検索ワードを発見することができ、大規模テキストから該当する情報を効率的に発見することができるようになる。   As described above, according to the present invention, the user of the text narrowing system 100 can use the system by making settings through the modal window 900, and the ranking table 300, the network graph 400, and the narrowing result display. By mutually confirming and operating the columns 500, it is possible to find a search word for acquiring information desired by itself, and to efficiently find relevant information from a large-scale text.

また、上記の説明では、ネットワークグラフ400におけるノードの色付け例を、品詞の種類としたが、ワードが持つネガティブ要素やポジティブ要素などの評価極性を考慮した色付けを行い提示することで、情報が肯定的な内容なのかもしく否定的な内容なのかを判断に役立てることができる。   In the above description, the node coloring example in the network graph 400 is the type of part of speech, but the information is affirmed by coloring and presenting the evaluation polarities such as negative elements and positive elements of the word. It can be used to judge whether the content is specific or negative.

他に、テキストデータ111において、テキストデータを作成した人物の年齢や性別などのユーザ属性を保持しておくことで、絞り込み結果表示欄500に当該ユーザ属性を表示し、年齢別または性別などの情報でまとめて提示することができる。   In addition, in the text data 111, by retaining the user attributes such as the age and sex of the person who created the text data, the user attributes are displayed in the refined result display column 500, and information such as age and gender is displayed. Can be presented together.

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。   It should be noted that the configuration and contents of the various data described above are not limited to this, and it goes without saying that the various data and configurations are configured according to the application and purpose.

また、本発明におけるプログラムは、図5、図6、図13の処理をコンピュータに実行させるプログラムである。なお、本発明におけるプログラムは、図5、図6、図13の各処理ごとのプログラムであってもよい。   The program in the present invention is a program for causing a computer to execute the processes of FIGS. Note that the program in the present invention may be a program for each process in FIGS. 5, 6, and 13.

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。   As described above, a recording medium that records a program that implements the functions of the above-described embodiments is supplied to a system or apparatus, and a computer (or CPU or MPU) of the system or apparatus stores the program stored in the recording medium. It goes without saying that the object of the present invention can also be achieved by reading and executing.

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。   In this case, the program itself read from the recording medium realizes the novel function of the present invention, and the recording medium recording the program constitutes the present invention.

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。   As a recording medium for supplying the program, for example, a flexible disk, hard disk, optical disk, magneto-optical disk, CD-ROM, CD-R, DVD-ROM, magnetic tape, nonvolatile memory card, ROM, EEPROM, silicon A disk or the like can be used.

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   Further, by executing the program read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (operating system) operating on the computer based on an instruction of the program is actually It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the processing and the processing is included.

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。   Furthermore, after the program read from the recording medium is written to the memory provided in the function expansion board inserted into the computer or the function expansion unit connected to the computer, the function expansion board is based on the instructions of the program code. It goes without saying that the case where the CPU or the like provided in the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。   The present invention may be applied to a system constituted by a plurality of devices or an apparatus constituted by a single device. Needless to say, the present invention can be applied to a case where the present invention is achieved by supplying a program to a system or apparatus. In this case, by reading a recording medium storing a program for achieving the present invention into the system or apparatus, the system or apparatus can enjoy the effects of the present invention.

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。   Furthermore, by downloading and reading a program for achieving the present invention from a server, database, etc. on a network using a communication program, the system or apparatus can enjoy the effects of the present invention. In addition, all the structures which combined each embodiment mentioned above and its modification are also included in this invention.

100 テキスト絞り込みシステム
110 データベース
111 テキストデータ
112 分析結果データ
120 分析処理部
130 集計部
140 WEBアプリケーションサーバー
150 クライアント端末
100 Text Refinement System 110 Database 111 Text Data 112 Analysis Result Data 120 Analysis Processing Unit 130 Totaling Unit 140 WEB Application Server 150 Client Terminal

Claims (12)

文書を解析することで得られるワードを一覧表示する表示制御手段と、
前記表示制御手段により一覧表示されたワードの選択を受け付けるワード選択受付手段と、
前記ワード選択受付手段により選択を受け付けたワードを含むネットワークグラフを作成する作成手段と、
を備え、
前記表示制御手段は、前記作成手段により作成されたネットワークグラフを表示することを特徴とする情報処理装置。
Display control means for displaying a list of words obtained by analyzing the document;
Word selection accepting means for accepting selection of words displayed in a list by the display control means;
Creating means for creating a network graph including a word accepted by the word selection accepting means;
With
The information processing apparatus, wherein the display control means displays the network graph created by the creating means.
前記作成手段により作成されるネットワークグラフは、前記ワードが表示されたノードと、ワードとワードの係り受け関係を示しノード間をつなぐエッジとから構成された図であることを特徴とする請求項1に記載の情報処理装置。   2. The network graph created by the creation means is a diagram composed of a node displaying the word and an edge indicating a dependency relationship between the word and the word and connecting the nodes. The information processing apparatus described in 1. 前記ワード選択受付手段は、さらに、前記作成手段により作成されたネットワークグラフに表示されたワードの選択を受け付け、
前記作成手段は、さらに、前記ワード選択受付手段によりネットワークグラフに表示されたワードの選択を受け付けた場合、当該ワードと係り受け関係のあるワードのノードと、当該ノードを繋ぐエッジとを追加したネットワークグラフを作成することを特徴とする請求項2に記載の情報処理装置。
The word selection accepting means further accepts selection of a word displayed on the network graph created by the creating means,
When the creation unit receives a selection of a word displayed on the network graph by the word selection reception unit, a network in which a node of a word having a dependency relationship with the word and an edge connecting the node are added The information processing apparatus according to claim 2, wherein a graph is created.
前記表示制御手段は、さらに、前記ワード選択受付手段によりネットワークグラフに表示されたワードの選択を受け付けた場合、当該ワードを含む文書の原文を表示することを特徴とする請求項3に記載の情報処理装置。   4. The information according to claim 3, wherein the display control means further displays the original text of the document including the word when the selection of the word displayed on the network graph is accepted by the word selection accepting means. Processing equipment. 前記ネットワークグラフにおけるノードは、当該ノードに表示されるワードの出現頻度に応じて大きさが異なることを特徴とする請求項2乃至4のいずれか1項に記載の情報処理装置。   5. The information processing apparatus according to claim 2, wherein a node in the network graph has a different size according to an appearance frequency of a word displayed in the node. 前記ネットワークグラフにおけるエッジは、当該エッジによりつながれるワード同士の係り受けの頻度により、太さが異なることを特徴とする請求項2乃至5のいずれか1項に記載の情報処理装置。   The information processing apparatus according to claim 2, wherein the edge of the network graph has a different thickness depending on a frequency of dependency between words connected by the edge. 前記表示制御手段は、ワードの一覧およびネットワークグラフおよび文書の原文を同一画面に表示することを特徴とする請求項4乃至6のいずれか1項に記載の情報処理装置。   The information processing apparatus according to claim 4, wherein the display control unit displays a list of words, a network graph, and an original text of a document on the same screen. 前記作成手段は、さらに、前記ワード選択受付手段によりネットワークグラフに表示されたワードの選択を受け付けた場合、当該選択を受け付けたワードを識別可能なネットワークグラフを作成することを特徴とする請求項2乃至7のいずれか1項に記載の情報処理装置。   3. The creation unit further creates a network graph capable of identifying the word that has received the selection when the selection of the word displayed on the network graph is received by the word selection reception unit. The information processing apparatus according to any one of 1 to 7. 前記作成手段は、さらに、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合には、当該所定の数に収まるように末端のノードを削除したネットワークグラフを作成することを特徴とする請求項2乃至7のいずれか1項に記載の情報処理装置。   The creation unit further creates a network graph in which the end nodes are deleted so that the number of edges connecting from the end node to another end node exceeds a predetermined number so as to be within the predetermined number. The information processing apparatus according to claim 2, wherein the information processing apparatus is an information processing apparatus. 前記作成手段は、さらに、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合であっても、当該末端のノードに対して表示し続ける旨の指示がなされている場合、当該ノードを削除しないことを特徴とする請求項8に記載の情報処理装置。   The creation means is further instructed to continue displaying the end node even when the number of edges connecting from the end node to another end node exceeds a predetermined number. The information processing apparatus according to claim 8, wherein the node is not deleted. 情報処理装置に表示制御手段が、文書を解析することで得られるワードを一覧表示する表示制御工程と、
前記情報処理装置のワード選択受付手段が、前記表示制御工程により一覧表示されたワードの選択を受け付けるワード選択受付工程と、
前記情報処理装置の作成手段が、前記ワード選択受付工程により選択を受け付けたワードを含むネットワークグラフを作成する作成工程と、
を備え、
前記表示制御工程は、前記作成工程により作成されたネットワークグラフを表示することを特徴とする情報処理方法。
A display control step in which the display control means in the information processing apparatus displays a list of words obtained by analyzing the document; and
A word selection receiving unit of the information processing apparatus for receiving a selection of words displayed in a list by the display control step;
A creation step of creating a network graph including a word whose selection is accepted by the word selection acceptance step by the creation means of the information processing device;
With
The display control step displays the network graph created by the creation step.
情報処理装置において実行可能なプログラムであって、
前記情報処理装置を、
文書を解析することで得られるワードを一覧表示する表示制御手段と、
前記表示制御手段により一覧表示されたワードの選択を受け付けるワード選択受付手段と、
前記ワード選択受付手段により選択を受け付けたワードを含むネットワークグラフを作成する作成手段として機能させ、
前記表示制御手段を、前記作成手段により作成されたネットワークグラフを表示することを特徴とする手段として機能させることを特徴とするプログラム。


A program executable in the information processing apparatus,
The information processing apparatus;
Display control means for displaying a list of words obtained by analyzing the document;
Word selection accepting means for accepting selection of words displayed in a list by the display control means;
Function as a creation means for creating a network graph including a word accepted by the word selection acceptance means,
A program for causing the display control means to function as means for displaying a network graph created by the creating means.


JP2013269582A 2013-12-26 2013-12-26 Information processing apparatus, information processing method, and program Active JP6287192B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013269582A JP6287192B2 (en) 2013-12-26 2013-12-26 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013269582A JP6287192B2 (en) 2013-12-26 2013-12-26 Information processing apparatus, information processing method, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018020803A Division JP6521118B2 (en) 2018-02-08 2018-02-08 INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM

Publications (3)

Publication Number Publication Date
JP2015125594A true JP2015125594A (en) 2015-07-06
JP2015125594A5 JP2015125594A5 (en) 2017-10-19
JP6287192B2 JP6287192B2 (en) 2018-03-07

Family

ID=53536258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013269582A Active JP6287192B2 (en) 2013-12-26 2013-12-26 Information processing apparatus, information processing method, and program

Country Status (1)

Country Link
JP (1) JP6287192B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019164593A (en) * 2018-03-20 2019-09-26 株式会社Screenホールディングス Text mining method, text mining program, and text mining device
JP2020115317A (en) * 2019-01-18 2020-07-30 株式会社東芝 Management device, method, and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (en) * 1996-07-05 1998-03-17 Hitachi Ltd Method and device for supporting document retrieval and document retrieving service using the method and device
JP2006285499A (en) * 2005-03-31 2006-10-19 Nec Corp Data mining device, data mining method and its program
JP2007193380A (en) * 2006-01-16 2007-08-02 So-Net Entertainment Corp Information processor, information processing method and computer program
JP2009128949A (en) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd Graphic display device and program
JP4557513B2 (en) * 2003-07-11 2010-10-06 キヤノン株式会社 Information search apparatus, information search method and program
WO2013161850A1 (en) * 2012-04-26 2013-10-31 日本電気株式会社 Text mining system, text mining method, and program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (en) * 1996-07-05 1998-03-17 Hitachi Ltd Method and device for supporting document retrieval and document retrieving service using the method and device
JP4557513B2 (en) * 2003-07-11 2010-10-06 キヤノン株式会社 Information search apparatus, information search method and program
JP2006285499A (en) * 2005-03-31 2006-10-19 Nec Corp Data mining device, data mining method and its program
JP2007193380A (en) * 2006-01-16 2007-08-02 So-Net Entertainment Corp Information processor, information processing method and computer program
JP2009128949A (en) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd Graphic display device and program
WO2013161850A1 (en) * 2012-04-26 2013-10-31 日本電気株式会社 Text mining system, text mining method, and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019164593A (en) * 2018-03-20 2019-09-26 株式会社Screenホールディングス Text mining method, text mining program, and text mining device
JP2020115317A (en) * 2019-01-18 2020-07-30 株式会社東芝 Management device, method, and program
JP7086873B2 (en) 2019-01-18 2022-06-20 株式会社東芝 Management equipment, methods and programs

Also Published As

Publication number Publication date
JP6287192B2 (en) 2018-03-07

Similar Documents

Publication Publication Date Title
US20230297602A1 (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
Hinrichs et al. Trading consequences: A case study of combining text mining and visualization to facilitate document exploration
JP5647508B2 (en) System and method for identifying short text communication topics
US9323827B2 (en) Identifying key terms related to similar passages
US20130305149A1 (en) Document reader and system for extraction of structural and semantic information from documents
US9613003B1 (en) Identifying topics in a digital work
CA3077454C (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
CN104182469B (en) Method for annotating document and input method system
Hamborg et al. Matrix-based news aggregation: exploring different news perspectives
US9639518B1 (en) Identifying entities in a digital work
CN108509405A (en) A kind of generation method of PowerPoint, device and equipment
US20160162583A1 (en) Apparatus and method for searching information using graphical user interface
US20090119283A1 (en) System and Method of Improving and Enhancing Electronic File Searching
KR20120021011A (en) Intergrated law information service system and method
US20120179709A1 (en) Apparatus, method and program product for searching document
TWI290687B (en) System and method for search information based on classifications of synonymous words
JP6898542B2 (en) Information processing device, its control method, and program
JP6287192B2 (en) Information processing apparatus, information processing method, and program
Eisenstein et al. Topicviz: Semantic navigation of document collections
JP6521118B2 (en) INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM
JP6384469B2 (en) Information processing apparatus, information processing system, control method, and program
JP2009129176A (en) Structured document retrieval device, method, and program
Földváry Cowboy Hamlets and zombie Romeos
NL2025417B1 (en) Intelligent Content Identification and Transformation
WO2017134760A1 (en) Information search method, information search device and information search system

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150410

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161101

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180122

R150 Certificate of patent or registration of utility model

Ref document number: 6287192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250