JP5436484B2 - Factor trivial word acquisition device, method and program - Google Patents

Factor trivial word acquisition device, method and program Download PDF

Info

Publication number
JP5436484B2
JP5436484B2 JP2011070941A JP2011070941A JP5436484B2 JP 5436484 B2 JP5436484 B2 JP 5436484B2 JP 2011070941 A JP2011070941 A JP 2011070941A JP 2011070941 A JP2011070941 A JP 2011070941A JP 5436484 B2 JP5436484 B2 JP 5436484B2
Authority
JP
Japan
Prior art keywords
word
experience
factor
words
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011070941A
Other languages
Japanese (ja)
Other versions
JP2012203870A (en
Inventor
翔 川中
章裕 宮田
高秀 星出
考 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011070941A priority Critical patent/JP5436484B2/en
Publication of JP2012203870A publication Critical patent/JP2012203870A/en
Application granted granted Critical
Publication of JP5436484B2 publication Critical patent/JP5436484B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、要因自明語獲得装置及び方法及びプログラムに係り、特に、出現位置傾向と、各語の品詞と、各語の直前出現助詞の頻度分布から獲得する経験語を含む言語パターンを用いる要因自明語獲得装置および方法およびプログラムに関する。   The present invention relates to a factor trivial word acquisition apparatus, method, and program, and in particular, a factor using a language pattern including an experience word acquired from an appearance position tendency, a part of speech of each word, and a frequency distribution of an immediately preceding particle of each word. The present invention relates to a trivial word acquisition apparatus, method, and program.

何らかの結果を表す表現と、結果を引き起こした原因を表す表現の2つ組の獲得(因果関係の獲得)は、経済予測、マーケティング、行動ナビゲーションなどさまざまな分野において重要なものである。因果関係の種類としては世の中の出来事の間の因果関係や、人々一人一人の行動とその要因との間の因果関係などがある。大量の記事を情報源として,自動的に獲得する従来技術が存在する(例えば、非特許文献1参照)。   Acquiring two sets of expressions that express some result and expressions that cause the result (acquisition of causality) is important in various fields such as economic forecasting, marketing, and behavioral navigation. Types of causal relationships include causal relationships between events in the world and causal relationships between individual behaviors and their factors. There is a conventional technique for automatically acquiring a large number of articles as an information source (see, for example, Non-Patent Document 1).

非特許文献1などの方法では、新聞記事などを情報源として、各記事のテキストに対して、「ため」「ので」など要因を表す接続標識を手がかりとした特定の言語パターンに適合する表現を、要因や結果が書かれている箇所として特定する。さらに要因と結果の表現それぞれに対して、語形処理などにより正規化を行い、要因と結果のペア関係を抽出、さらにそのペア関係を大量に集めることで要因と結果の間の関係の強さを知識として獲得する方法である。   In methods such as Non-Patent Document 1, newspaper articles are used as information sources, and for each article's text, expressions that match a specific language pattern with clues to connection indicators that represent factors such as “for” and “so” are used. , Identify the place where the factor or result is written. Furthermore, each factor and result expression is normalized by word processing, etc., and pair relationships between the factors and results are extracted, and by collecting a large amount of the pair relationships, the strength of the relationship between the factors and results is increased. It is a method to acquire as knowledge.

乾孝司, 乾健太郎, 松本裕治. "接続標識「ため」に基づく文書集合からの因果関係知識の自動獲得," 情報処理学会論文誌, Vol.45, No.3, pp. 919-933, 2004)Inui Takashi, Inui Kentaro, Matsumoto Yuji. "Automatic acquisition of causal knowledge from document collection based on connection sign" for "," IPSJ Transactions, Vol. 45, No. 3, pp. 919-933, 2004 )

本発明で解決する課題は次の2つである。   The problems to be solved by the present invention are the following two.

課題1)要因でありながら、要因を表す言語パターンを伴わない語の適切な要因推定;
課題2)経験記事コーパスにおける要因自明語リストの網羅的な獲得;
それぞれについて下記に詳細な説明を記す。
Task 1) Estimate appropriate factors for words that are factors but do not have a language pattern that represents the factors;
Issue 2) Comprehensive acquisition of factor trivial lists in experience article corpus;
A detailed description is given below for each.

1)要因でありながら、要因を表す言語パターンを伴わない語の適切な要因推定;
ある経験記事中の要因箇所を推定するというタスクがあるときに、上記のような各表現の近傍に出現する言語パターンを利用した方法では、要因でありながら、要因を表す言語パターンを伴わない語については、要因であることを推定することができない。例えば、レストラン訪問についての経験が記述される経験記事において、次に示す例文1と例文2では"二次会"'という単語が要因であるが、要因を表す言語パターンを伴っていないために、要因であると推定することができない。
1) Appropriate factor estimation for words that are factors but do not have a language pattern representing the factor;
When there is a task to estimate the location of a factor in an experience article, the above method using a language pattern that appears in the vicinity of each expression is a factor but a word that does not have a language pattern that represents the factor. Cannot be estimated to be a factor. For example, in an experience article describing the experience of visiting a restaurant, in the following example sentence 1 and example sentence 2, the word “secondary meeting” is a factor, but since there is no language pattern representing the factor, It cannot be estimated that there is.

Figure 0005436484
2)経験記事コーパスにおける要因自明語リストの網羅的な獲得;
上記の問題を解決するために、経験記事コーパスにおける要因自明語リストを網羅的に獲得する必要がある。要因自明語を自動獲得する方法として、経験記事コーパスに対して、要因を表す接続標識を用いて、結果表現と要因表現の2つ組を大量に獲得し、要因表現を要因自明語とする方法が考えられる。しかしながら現状では、経験記事における経験に対する要因表現だけを選別して取得することができない。なぜなら、様々な結果表現があるとき、それが経験記事における経験か、その他の結果かを区別することができないからである。例として、レストラン訪問を対象とした経験記事コーパスがあるとき、特定の接続標識の前後に着目し、結果表現と要因表現のペアを大量に獲得することができるが、そのうちのレストラン訪問に対する要因表現だけを収集することはできない。従来、レストラン訪問を表す表現のリストが存在しないためである。(選別取得処理ができないと次の例文3、例文4のような表現についても要因自明語として獲得されてしまう。
Figure 0005436484
2) Comprehensive acquisition of factor self-explanatory word list in experience article corpus;
In order to solve the above problems, it is necessary to obtain a comprehensive list of factor trivial words in the experience article corpus. As a method of automatically acquiring factor self-explanatory words, using a connection indicator representing factors for experience article corpus, acquiring a large number of result expressions and factor expressions and making factor expressions self-explanatory words Can be considered. However, at present, it is not possible to select and obtain only factor expressions for experiences in experience articles. This is because when there are various result expressions, it is not possible to distinguish whether it is an experience in an experience article or other results. As an example, when there is an experience article corpus for restaurant visits, it is possible to obtain a large number of pairs of result expressions and factor expressions by focusing on the front and back of a specific connection sign. Can't just collect. This is because, conventionally, there is no list of expressions representing restaurant visits. (If the selection acquisition process cannot be performed, expressions such as the following example sentence 3 and example sentence 4 are also acquired as factor trivial words.

Figure 0005436484
本発明は、上記の点に鑑みなされたもので、要因でありながら、要因を表す言語パターンを伴わない語の適切な要因推定を可能とし、経験記事コーパスにおける要因自明語リストの網羅的な獲得が可能な要因自明語獲得装置及び方法及びプログラムを提供することを目的とする。
Figure 0005436484
The present invention has been made in view of the above points, and enables the appropriate factor estimation of a word that is a factor but does not involve a language pattern representing the factor, and comprehensively obtains a factor trivial word list in the experience article corpus It is an object of the present invention to provide an apparatus, method and program for acquiring a self-evident factor.

上記の課題を解決するため、本発明は、コーパス中に一度以上出現する各語のうち、要因を表す語である要因自明語を抽出する要因自明語獲得装置であって、
人々が自らの経験について記した経験記事、経験語を格納した記憶手段と、
経験語(以下、「経験語シード」と記す)の入力を受け付ける入力手段と、
入力された前記経験語シードに基づいて前記記憶手段を参照し、経験記事が要素となるコーパスがあるとき、1度以上登場する各語のコーパス中における、各経験記事内での出現位置傾向と、各語の品詞と、各語の直前出現助詞の頻度分布と、を用いて経験語を抽出する経験語獲得手段と、
前記経験語獲得手段で獲得した前記経験語と、要因助詞を含む言語パターンを用いて、前記記憶手段を参照し、コーパスから所定の出現回数以上の単語を要因自明語として抽出する要因語獲得手段と、を有する。
To solve the above problems, the present invention is, among the words appearing more than once in the corpus, a factor obvious word acquisition apparatus for extracting factors obvious word is a word representing the factors,
Experience articles that people wrote about their experiences, storage means that stored experience words,
An input means for receiving input of experience words (hereinafter referred to as “experience word seeds”);
The storage means is referred to based on the input experience word seed, and when there is a corpus that is an element of the experience article, the appearance position tendency in each experience article in the corpus of each word appearing at least once , Experience word acquisition means for extracting experience words using the part of speech of each word and the frequency distribution of the immediately preceding particle of each word;
Wherein the experience word acquired in the experience word acquisition means, by using a language pattern including factors particle, by referring to the storage means, cause words to extract a word on a given occurrence times speed than factors evident Language corpus Acquisition means.

また、本発明は、請求項1の前記経験語獲得手段において、
前記1度以上登場する各語が経験語であるかを判定する際に、
予めユーザから入力された適切な1個以上の経験語の直前出現助詞の頻度分布と、前記コーパス中に一度以上出現する各語のうち品詞の種類が“名詞−サ変接続”もしくは“動詞−自立”に該当する単語の直前出現助詞の頻度分布との類似度を判定の特徴として利用する手段を含む。
Further, the present invention provides the experience word acquisition means according to claim 1,
When determining whether each word that appears more than once is an experience word,
The frequency distribution of the immediately preceding appearing particles of one or more appropriate experience words input in advance by the user, and the type of part of speech of each word appearing more than once in the corpus is “noun-sa-variant connection” or “verb-independence” Includes means for using the similarity with the frequency distribution of the immediately preceding particle of the word corresponding to “” as a determination feature .

また、本発明は、請求項1の前記経験語獲得手段において、
前記1度以上登場する各語が経験語であるかを判定する際に、
予めユーザから入力された1個以上の助詞の、各語の直前に出現する頻度の分布を判定の特徴として利用する手段を含む。
Further, the present invention provides the experience word acquisition means according to claim 1,
When determining whether each word that appears more than once is an experience word,
Means for using, as a determination feature, the distribution of the frequency of one or more particles input from the user in advance appearing immediately before each word.

また、本発明は、請求項1の前記要因語獲得手段において、
コーパス中における各語について、予め指定する要因を表す接続標識および経験語を含む言語パターンに合致する回数が一定回数以上となる語を要因自明語として抽出する手段を含む。
Further, the present invention provides the factor word acquisition means according to claim 1,
For each word in the corpus, there is included means for extracting, as a factor self-explanatory word, a word whose number of matches with a language pattern including a connection indicator representing a factor designated in advance and an experience word is a predetermined number of times or more.

本発明では、予め自動獲得する経験語を用いて、経験記事における経験に対する要因自明語を、獲得する上記のような問題に対処するために必要となる、「経験記事コーパスにおける要因自明語リストの網羅的な獲得」という課題を解決することができる。従来は、上記要因推定問題において、各経験記事中における要因でありながら要因を表す言語パターンを伴わない語について要因であると適切に推定できなかったが、その語が要因自明語リスト(各語の品詞と各語の直前助詞、頻度分布から抽出された経験語の集合)に含まれる場合は、要因であると適切に推定することができ、要因推定の精度を高めることができる。   In the present invention, using the experience words automatically acquired in advance, it is necessary to deal with the above-described problem of acquiring the factor trivial words for the experience in the experience article. We can solve the problem of “exhaustive acquisition”. Previously, in the above factor estimation problem, it was not possible to properly estimate a factor that is a factor in each experience article but not accompanied by a language pattern that represents the factor. Can be appropriately estimated to be a factor, and the accuracy of factor estimation can be improved.

具体的には、上記例文1と例文2においても、"二次会"という語が要因自明語リストに含まれていれば、例文1と例文2における"二次会"という語が要因であると推定することができる。   Specifically, in the above-described example sentence 1 and example sentence 2, if the word “secondary meeting” is included in the factor trivial word list, it is estimated that the word “secondary meeting” in example sentence 1 and example sentence 2 is the factor. Can do.

本発明の第1の実施の形態における要因自明語獲得装置の構成図である。It is a block diagram of the factor trivial acquisition device in the 1st Embodiment of this invention. 本発明の第1の実施の形態における経験記事各語テーブルの例である。It is an example of the experience article each word table in the 1st Embodiment of this invention. 本発明の第1の実施の形態における経験記事の例である。It is an example of the experience article in the 1st Embodiment of this invention. 本発明の第1の実施の形態における経験語テーブルの例である。It is an example of the experience word table in the 1st Embodiment of this invention. 本発明の第1の実施の形態における要因自明語テーブルの例である。It is an example of the factor trivial word table in the 1st Embodiment of this invention. 本発明の第1の実施の形態における要因自明語装置の処理のフローチャートである。It is a flowchart of a process of the factor trivial device in the 1st Embodiment of this invention. 本発明の第1の実施の形態における行動表現獲得処理のフローチャートである。It is a flowchart of the action expression acquisition process in the 1st Embodiment of this invention. 本発明の第1の実施の形態における要因自明語抽出処理のプログラム例である。It is an example of a program of the factor trivial word extraction process in the 1st Embodiment of this invention.

以下図面と共に、本発明の実施の形態を説明する。   Embodiments of the present invention will be described below with reference to the drawings.

最初に、本明細書中で用いられる用語について説明する。   First, terms used in this specification will be described.

・経験記事:人々が自らの何らかの経験について記述した記事:
・経験語:経験記事コーパス中に1度以上登場する各語のうち、著者が経験を実施したことを表すために用いている語:
(例:レストラン訪問についての経験を記述する経験記事コーパスにおいて、"行く"、"訪問"、"来店"などの単語は通常レストラン訪問という経験を表現する際に使われるため、経験語である。)
・要因:人々の経験実施の決断にポジティブな影響を与えた事象や状態、条件:
・要因語:各記事中において、要因を表す各表現:
・要因自明語:コーパス中に1度以上登場する各語のうち、出現文脈に依存せず、高確率で要因を表す語:
(例:"ニ次会"という単語は、レストラン訪問についての経験記事において、著者が該当店舗を訪れる際の要因を表す確率が高いので、該当コーパスにおいて要因自明語である。)
図1は、本発明の第1の実施の形態における要因自明語獲得装置の構成図を示す。同図における装置は、大きく分けて経験語シード入力部10、経験語獲得部20、要因自明語獲得部30、記録部40、外部装置50から構成される。
・ Experience articles: Articles that describe people's own experiences:
・ Experience words: Of the words that appear more than once in the experience article corpus, the words used to describe the author's experience:
(Example: In an experience article corpus that describes an experience of visiting a restaurant, words such as “go”, “visit”, and “visit” are usually used to express the experience of visiting a restaurant, and thus are experience words. )
・ Factors: Events, conditions and conditions that had a positive impact on people's decision to implement experiences:
・ Factor word: In each article, each expression expressing the factor:
-Factor self-explanatory words: Of words that appear more than once in the corpus, words that represent factors with high probability without depending on the appearance context:
(Example: The word “ni-kai” is a factor trivial word in the corpus because it has a high probability of representing a factor when the author visits the store in an experience article about a restaurant visit.)
FIG. 1 shows a configuration diagram of a factor trivial word acquisition apparatus according to the first embodiment of the present invention. The apparatus in the figure is roughly composed of an experience word seed input unit 10, an experience word acquisition unit 20, a factor trivial word acquisition unit 30, a recording unit 40, and an external device 50.

以下に記録部50の各テーブルについて説明する。記録部50は、ハードディスク等の記憶媒体であり、経験記事各語テーブル41、経験語テーブル42、要因自明語テーブル43から構成される。   Hereinafter, each table of the recording unit 50 will be described. The recording unit 50 is a storage medium such as a hard disk, and includes an experience article word table 41, an experience word table 42, and a factor trivial word table 43.

<経験記事各語テーブル41>
経験記事各語テーブル41は、図2に示すように、経験記事IDフィールド、先頭からの順番フィールド、文字列フィールド、品詞フィールドが含まれる。経験記事各語テーブル41は、各経験記事を格納するためのテーブルであり、各経験記事の各語が格納され、さらに先頭から何語目かが分かるものとする。さらに品詞フィールドによって、その語の品詞が分かるものとする。経験記事は図3に示すような人々が、特定の分野についての自らの経験を記した記事であるとする(図3はレストラン訪問という分野についての経験)。
<Experience article word table 41>
As shown in FIG. 2, the experience article word table 41 includes an experience article ID field, an order field from the top, a character string field, and a part of speech field. The experience article word table 41 is a table for storing each experience article, and stores each word of each experience article, and further knows the number of words from the top. Further, the part of speech of the word can be understood from the part of speech field. It is assumed that the experience article is an article in which people as shown in FIG. 3 describe their experiences in a specific field (FIG. 3 is an experience in the field of restaurant visits).

<経験語テーブル42>
経験語テーブル42は、図4に示すように、経験語フィールドから構成され、獲得した経験語を格納するテーブルである。
<Experience Word Table 42>
As shown in FIG. 4, the experience word table 42 is configured from an experience word field and stores acquired experience words.

<要因自明語テーブル43>
要因自明語テーブル43は、図5に示すように、要因自明語フィールドから構成され、獲得した要因自明語を格納するテーブルである。
<Factor trivial table 43>
As shown in FIG. 5, the factor trivial word table 43 is configured from a factor trivial word field and stores the acquired factor trivial words.

以下に、上記の構成における要因自明語獲得装置の処理について説明する。   Below, the process of the factor trivial word acquisition apparatus in said structure is demonstrated.

図6は、本発明の第1の実施の形態における要因自明語獲得装置の処理のフローチャートである。   FIG. 6 is a flowchart of the process performed by the factor trivial word acquisition apparatus according to the first embodiment of the present invention.

本装置では大きく分けて、経験語シード入力部10による経験シード入力処理S100、経験語獲得部20による経験獲得処理S200、要因自明語獲得部30による要因自明語獲得処理S300から構成される。以下では各処理について詳しく説明する。   This apparatus is roughly divided into an experience seed input process S100 by the experience word seed input unit 10, an experience acquisition process S200 by the experience word acquisition unit 20, and a factor trivial word acquisition process S300 by the factor trivial word acquisition unit 30. Each process will be described in detail below.

<経験語シード入力処理S100>
経験語シード入力処理では、経験語シード入力部10が、利用者からの経験語の入力を受け付ける。(受け付ける経験語は利用者が思いつく程度の、2,3個の経験語が想定される。)利用者が経験語を入力し終えると、経験語獲得処理S200で用いる閾値θ1, θ2, θ3, θ4,の入力を要求し、ユーザからそれらの閾値が入力されると、経験語シード入力部10では、利用者が入力した経験語リストV = {vi} とθ1, θ2, θ3, θ4,を経験語獲得部20に出力する。
<Experience Word Seed Input Processing S100>
In the experience word seed input process, the experience word seed input unit 10 receives an input of an experience word from the user. (The number of experience words accepted is assumed to be two or three experience words that the user can conceive.) When the user finishes inputting experience words, the thresholds θ 1, θ 2, used in the experience word acquisition process S200 . When input of θ 3, θ 4 is requested and the threshold values are input from the user, the experience word seed input unit 10 receives the experience word list V = {v i } and θ 1, θ input by the user. 2, θ 3, θ 4 are output to the experience word acquisition unit 20.

<経験語獲得処理S200)
経験語獲得部20は、経験獲得処理S200から渡された経験語リストV(経験語シードの集合)とθ1, θ2, θ3, θ4,を入力として、記録部40を参照し、経験語を獲得(出力)する。以下に詳細な処理を示す。
<Experience acquisition process S200)
The experience word acquisition unit 20 inputs the experience word list V (a set of experience word seeds) and θ 1, θ 2, θ 3, θ 4, passed from the experience acquisition process S200, and refers to the recording unit 40, Acquire (output) experience words. Detailed processing is shown below.

図7は、本発明の第1の実施の形態における経験語獲得処理のフローチャートである。   FIG. 7 is a flowchart of the experience word acquisition process in the first embodiment of the present invention.

ステップ201) 経験語獲得部20は、経験語シードに基づいて、経験記事各語テーブル41を参照し、一度以上登場する全て語ziのリストを作成する(この際、各語は、原型のラベルと品詞のペアが、ユニークな時にユニークな一語としてカウントする。 Step 201) Based on the experience word seed, the experience word acquisition unit 20 refers to the experience article word table 41 and creates a list of all words z i that appear once or more (in this case, each word is a prototype). When a label / part of speech pair is unique, it counts as a unique word.

すなわち、<行く:動詞-自立>と<行く: 動詞-非自立>は別の語としてカウントする。
語ziのうち、品詞が"名詞-サ変接続"もしくは"動詞-自立"である語aiのリストを作成する。
That is, <go: verb-independence> and <go: verb-independence> are counted as separate words.
Among words z i , a list of words a i whose part of speech is “noun-sa-variant connection” or “verb-independence” is created.

ステップ202) 全ての語aiについて次のスコアp1(ai)を計算する。 Step 202) Calculate the next score p 1 (a i ) for all words a i .

Figure 0005436484
上記の式(1)のPart(ai)は、語aiが各経験記事に出現する際の、直前1語に出現する助詞の頻度分布ベクトルである。part(ai)の例として、『行く』という単語が経験記事コーパスにおいて、『へ』という助詞を直前1語に取る回数が30回、『に』という助詞を直前1語に取る回数が50回、『と』という助詞を直前1語に取る回数が20回であるとき、
Part『行く』=[30,50,20]
(但し、上記ベクトルは『へ』、『に』、『と』という助詞を直前に取る回数が格納されるとする)などとすることができる。
Figure 0005436484
Part (a i ) in the above equation (1) is a frequency distribution vector of particles that appear in the immediately preceding word when the word a i appears in each experience article. As an example of part (a i ), in the experience article corpus, the number of times that the word “Go” is taken as the last word is 30 times, and the number of words “ni” is taken as the last word is 50 Times, when the number of times the particle “to” is taken in the last word is 20 times,
Part “Go” = [30,50,20]
(However, it is assumed that the vector stores the number of times that the particles “h”, “ni”, “to” are taken immediately before).

cossim(x1, x2)は次のような入力ベクトルx1とx2のコサイン類似度を計算する関数である。 cossim (x 1 , x 2 ) is a function for calculating the cosine similarity of the input vectors x 1 and x 2 as follows.

Figure 0005436484
上記式(2)のp1(ai)の値が閾値θ1より高い語biのリストを作成する。
Figure 0005436484
A list of words b i in which the value of p 1 (a i ) in the above equation (2) is higher than the threshold θ 1 is created.

ステップ203) ステップ203で作成された全ての語biについて以下のスコアp2(bi)を計算する。なお、以下のD(bi)は語biを含む経験記事集合である。 Step 203) The following score p 2 (b i ) is calculated for all words b i created in step 203. The following D (b i ) is an experience article set including the word b i .

Figure 0005436484
なお、式(4)のdpos(bi, d)biがd内で出現位置が冒頭に近いほど高いスコアが付与される。これは経験記事について、まず経験を実施するまでの過程を記し、その後に経験語のことを記す順番で記述されるモデルを仮定し、さらに、前者の経験を実施するまでの過程(冒頭に近い部分)に経験語がしばしば出現する性質を仮定しているためである。またの式(4)において、1/2を減算しているのは、単純に出現回数が多い単語のスコアが高くなるのを防ぐためである。
Figure 0005436484
It should be noted that a higher score is given as d pos (b i , d) b i in Expression (4) is closer to the beginning in d. This is an experience article that first describes the process up to the implementation of the experience, then assumes a model that is described in the order in which the experience words are written, and then the process up to the implementation of the former experience (close to the beginning) This is because it is assumed that the experience words often appear in (part). In Equation (4), the reason why 1/2 is subtracted is to prevent the score of a word having a large number of appearances from increasing.

全ての語biについて次のスコアp2(bi)を計算し終わった後に、p2(bi)の値が閾値θ2より高い語ciのリストを作成する。 After calculating the next score p 2 (b i ) for all the words b i , a list of words c i whose p 2 (b i ) value is higher than the threshold θ 2 is created.

ステップ204) 全ての語ciについて次のスコアp3(ci)を計算する。 Step 204) Calculate the next score p 3 (c i ) for all words c i .

Figure 0005436484
但し、式(5)のdf(ci)は、ciの経験記事コーパスにおける出現ドキュメント数である。
Figure 0005436484
However, df (c i ) in Expression (5) is the number of documents appearing in the experience article corpus of c i .

p3(ci)の値が閾値θ3より高い語のリストを作成し、経験語テーブル42に格納し、要因自明語獲得処理(ステップ300)に処理を遷移する。 A list of words in which the value of p 3 (c i ) is higher than the threshold value θ 3 is created, stored in the experience word table 42, and the process transitions to the factor trivial word acquisition process (step 300).

経験語獲得処理S200の出力例として、次のような経験語シードが入力として与えられたとき、次のようなラベルを持つ経験語シードを出力することができる。   As an output example of the experience word acquisition process S200, when the following experience word seed is given as an input, an experience word seed having the following label can be output.

・入力経験語シード例:
行く、来店
・出力経験語シード例:
行く、立ち寄る、寄る、伺う、並ぶ、連れる、向かう、着く、訪れる、利用、訪問、来店
<要因自明語獲得処理S300>
要因自明語獲得部30では、経験テーブル42を参照し、経験語ejを全て取得する。
さらに、経験記事各語テーブルを参照し、全ての情報を取得する。
-Input experience word seed example:
Go, visit ・ Output experience word seed example:
Go, stop, stop, ask, line, line, go, arrive, visit, use, visit, visit <factor trivial word acquisition process S300>
In factors obvious word acquisition unit 30 refers to the experience table 42, and acquires all the experience word e j.
Further, all the information is acquired by referring to the experience article word table.

次に各経験記事dにおいて、次の(1)(2)(3)の処理を実施する.
(1)経験記事 d中に出現する各語について原形が各ejのいずれかと一致する語について、その出現位置w1(先頭からの語数)を全て取得する。
Next, in each experience article d, the following processes (1), (2), and (3) are performed.
(1) Experience article For each word that appears in d, all occurrence positions w 1 (number of words from the beginning) are acquired for words whose original form matches any of each e j .

(2)次に各出現位置w1について、w1の一語前に位置する語が{と、で、として、ということで、ので、ため}のいずれかである場合、その出現位置w2を全て取得する。 (2) Next, for each occurrence position w 1 , if the word located one word before w 1 is either {and, as, so, so, therefore}, the appearance position w 2 Get all.

(3)次に各出現位置w2について、w2の一語前に位置する語をメモリ(図示せず)内の要因自明語リストに記録する。 (3) Next, for each appearance position w 2 , the word located before the word of w 2 is recorded in the factor trivial word list in the memory (not shown).

上記(1)(2)(3)の処理を全ての経験記事について実施した後に、要因自明語リストにθ4回以上出現した語fiの全てを要因自明語テーブル43に格納する。 After the above processes (1), (2), and (3) have been performed for all experience articles, all of the words f i that appear θ 4 times or more in the factor trivial word list are stored in the factor trivial word table 43.

上記(1)(2)(3)の処理は図8に示すようにプログラムの形で記述することができる。同図に示すプログラムは、経験記事dの集合をD、各経験記事dの単語数をsize(d)、経験記事dにおけるg番目の単語をw(d,g)、経験語の集合をE,要因助詞語をj={と,で,として,ということで,ので,ため}とする。また、「count(wi)」は語wiの出現回数を数える処理である。 The processes (1), (2) and (3) can be described in the form of a program as shown in FIG. The program shown in the figure is D for the set of experience articles d, size (d) for the number of words in each experience article d, w (d, g) for the g-th word in experience article d, and E for the set of experience words. , And let the factor particle be j = {and, as, so, and so for}. “Count (w i )” is processing for counting the number of appearances of the word w i .

要因自明語獲得処理では、経験語と要因助詞語を含む言語パターンに着目し、次のような表現がある時に下線部の単語の出現回数を数え上げ、一定回数以上数え上げられた単語を要因自明語として記録する。   In the factor trivial word acquisition process, paying attention to language patterns including experience words and factor particle words, the number of occurrences of underlined words is counted when there is the following expression, and the words counted more than a certain number of times are factor trivial words Record as.

Figure 0005436484
要因自明語獲得処理では、誤りを少なく、数多くの要因自明語を獲得するために、経験語および特定の要因助詞語との接続を利用している。
Figure 0005436484
In the factor trivial word acquisition processing, the connection with the experience word and the specific factor particle word is used in order to reduce errors and acquire many factor trivial words.

要因自明語獲得処理S300の出力例として、次のような要因自明語を出力することができる。   As an output example of the factor trivial word acquisition process S300, the following factor trivial words can be output.

・要因自明語例:
安い、ランチ、一人、二人、友人、家族、車、二次会、宴会、上司、デート、友達、同僚、ディナー、昼食、良い評判、接待、大勢、思いつき、ブランチ、結婚式、接待、家族連れ、忘年会、誕生日祝い、夕食、居酒屋感覚、紹介、記念日、グループ、仲間、カップル、2名、送別会、仕事、テイクアウト、タクシー、二次会、電車、モーニング、宴会、プライベート、合コン、平日ランチ、子連れ、お祝い、女性同士、誕生日、女性、会食、新年会、観光
[第2の実施の形態]
本実施の形態は、第1の実施の形態の経験語獲得処理における、ステップ202の処理を次のように変更したものである。
・ Examples of self-evident factors:
Cheap, lunch, one person, two people, friends, family, car, secondary party, banquet, boss, date, friends, colleagues, dinner, lunch, good reputation, entertainment, many, thoughts, brunch, wedding, entertainment, families, Year-end party, birthday celebration, dinner, tavern sense, introduction, anniversary, group, friends, couple, 2 people, farewell party, work, takeout, taxi, secondary party, train, morning, banquet, private, joint party, weekday lunch, with children , Celebration, women, birthday, women, dinner, New Year's party, tourism [second embodiment]
In the present embodiment, the process of step 202 in the experience word acquisition process of the first embodiment is changed as follows.

ステップ202) まずユーザからの1つ以上の助詞集合Q={qi}と、閾値θ5の入力を受け付ける。ユーザからの入力が終わると、下記処理に遷移する。 Step 202) First, an input of one or more particle sets Q = {q i } and a threshold value θ 5 is received from the user. When the input from the user ends, the process proceeds to the following process.

ステップ201で取得された全ての語aiについて式(6)でスコアp4(ai)を計算する。なお、tf(ai)はコーパス中における語aiの出現頻度である。 Score p 4 (a i ) is calculated for all words a i acquired in step 201 using equation (6). Note that tf (a i ) is the appearance frequency of the word a i in the corpus.

Figure 0005436484
最後にp4(ai)の値が閾値θ5より高い語biのリストを作成する。
Figure 0005436484
Finally, a list of words b i having a value of p 4 (a i ) higher than the threshold θ 5 is created.

上記に示した第1、第2の実施の形態により、以下のような効果を得ることができる。   According to the first and second embodiments described above, the following effects can be obtained.

効果1は課題1に対応し、効果2は課題2に対応する。
・効果1)要因でありながら、要因を表す言語パターンを伴わない語の適切な要因推定;
・効果2)経験記事コーパスにおける要因自明語リストの網羅的な獲得
下記に詳細を記す。
Effect 1 corresponds to issue 1 and effect 2 corresponds to issue 2.
Effect 1) Appropriate factor estimation for words that are factors but do not have a language pattern representing the factors;
・ Effect 2) Comprehensive acquisition of factor self-explanatory word list in experience article corpus Details are described below.

本発明の第1の効果として、各経験記事から要因を表す表現を取得するというタスクがあるとき、必ずしも要因を表す言語パターンを伴わない語についても、要因自明語リストを用いることで要因であるか否かを評価することができる。   As a first effect of the present invention, when there is a task of acquiring an expression representing a factor from each experience article, even a word not necessarily accompanied by a language pattern representing the factor is a factor by using the factor obvious word list. It can be evaluated whether or not.

例を次に示す。ある経験記事において次のような文があるとき、次の下線部の語を要因を表す語として評価することは従来技術において可能であった。要因を表す接続標識を伴っているためである。   For example: When there is the following sentence in an experience article, it is possible in the prior art to evaluate the next underlined word as a word representing a factor. This is because there is a connection indicator indicating the factor.

Figure 0005436484
しかしながら次のような語について要因であると評価することは従来技術においてはできない場合があった。要因を表す言語パターンを伴っていないからである。
Figure 0005436484
However, there are cases where it is not possible in the prior art to evaluate the following words as a factor. This is because there is no language pattern representing the factor.

Figure 0005436484
本発明によって、上記例文3のような場合において、要因であるか否かを判定する際に語の要因らしさ(要因自明語に含まれるか否か)という情報を新たに用いることができ、高精度な要因性判定の実現に寄与することができる。
Figure 0005436484
According to the present invention, in the case of the above-described example sentence 3, when it is determined whether or not it is a factor, it is possible to newly use information on the likelihood of the word (whether or not included in the factor trivial word). This can contribute to the realization of accurate causality determination.

本発明の第2の効果として、経験記事コーパスがあるときに、経験に対して確実に要因を表す表現だけを選別して取得することができ、経験に対する確度の高い要因をマーケッターに見せることで、マーケッターは該当経験分野全体における、経験の要因の傾向を把握することができ、マーケティングにおける様々な仮説を構築する際や戦略を実行する際の知識として役立てることができる。   As a second effect of the present invention, when there is an experience article corpus, it is possible to select and acquire only expressions that surely represent the factors for the experience, and to show the marketer the factors with high accuracy for the experience. Marketers can understand the tendency of experience factors in the entire field of experience, and can use it as knowledge when building various hypotheses and executing strategies in marketing.

例として、飲食業界におけるマーケッターは、飲食店に関するレビュー記事集合と本装置とを用いることで、飲食業界における、頻出する要因を把握することができ、特定店舗の広告戦略を検討する際に、本装置で要因語を含む謳い文句を用いた広告文章を作成することができる。   As an example, marketers in the food and beverage industry can grasp the factors that frequently appear in the food and beverage industry by using a set of review articles about the restaurant and this device. An advertising sentence using an ugly phrase including a factor word can be created by the device.

Figure 0005436484
なお、第1の実施の形態における図8において、要因自明語獲得部30におけるプログラムを示したが、この例に限定されることなく、要因自明語獲得装置の経験語シード入力部10、経験語獲得部20の処理についてもプログラムとして構築し、要因自明語獲得装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
Figure 0005436484
In FIG. 8 in the first embodiment, the program in the factor trivial word acquisition unit 30 is shown. However, the present invention is not limited to this example. The processing of the acquisition unit 20 can also be constructed as a program, installed in a computer used as a factor trivial word acquisition device and executed, or distributed via a network.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications can be made within the scope of the claims.

10 経験語シード入力部
20 経験語獲得部
30 要因自明語獲得部
40 記憶部
41 経験記事各語テーブル
42 経験語テーブル
43 要因自明語テーブル
DESCRIPTION OF SYMBOLS 10 Experience word seed input part 20 Experience word acquisition part 30 Factor trivial word acquisition part 40 Memory | storage part 41 Experience article word table 42 Experience word table 43 Factor trivial word table

Claims (9)

コーパス中に一度以上出現する各語のうち、要因を表す語である要因自明語を抽出する要因自明語獲得装置であって、
人々が自らの経験について記した経験記事、経験語を格納した記憶手段と、
経験語(以下、「経験語シード」と記す)の入力を受け付ける入力手段と、
入力された前記経験語シードに基づいて前記記憶手段を参照し、経験記事が要素となるコーパスがあるとき、1度以上登場する各語のコーパス中における、各経験記事内での出現位置傾向と、各語の品詞と、各語の直前出現助詞の頻度分布と、を用いて経験語を抽出する経験語獲得手段と、
前記経験語獲得手段で獲得した前記経験語と、要因助詞を含む言語パターンを用いて、前記記憶手段を参照し、コーパスから所定の出現回数以上の単語を要因自明語として抽出する要因語獲得手段と、
を有することを特徴とする要因自明語獲得装置。
Among the words appearing more than once in the corpus, a factor obvious word acquisition apparatus for extracting factors obvious word is a word representing the factors,
Experience articles that people wrote about their experiences, storage means that stored experience words,
An input means for receiving input of experience words (hereinafter referred to as “experience word seeds”);
The storage means is referred to based on the input experience word seed, and when there is a corpus that is an element of the experience article, the appearance position tendency in each experience article in the corpus of each word appearing at least once , Experience word acquisition means for extracting experience words using the part of speech of each word and the frequency distribution of the immediately preceding particle of each word;
Wherein the experience word acquired in the experience word acquisition means, by using a language pattern including factors particle, by referring to the storage means, cause words to extract a word on a given occurrence times speed than factors evident Language corpus Acquisition means,
A factor trivial word acquisition device characterized by comprising:
前記経験語獲得手段は、
前記1度以上登場する各語が経験語であるかを判定する際に、
予めユーザから入力された適切な1個以上の経験語の直前出現助詞の頻度分布と、前記コーパス中に一度以上出現する各語のうち品詞の種類が“名詞−サ変接続”もしくは“動詞−自立”に該当する単語の直前出現助詞の頻度分布との類似度を判定の特徴として利用する手段を含む
請求項1記載の要因自明語獲得装置。
The experience word acquisition means includes
When determining whether each word that appears more than once is an experience word,
The frequency distribution of the immediately preceding appearing particles of one or more appropriate experience words input in advance by the user, and the type of part of speech of each word appearing more than once in the corpus is “noun-sa-variant connection” or “verb-independence” The factor trivial word acquisition apparatus according to claim 1, further comprising means for using a similarity with the frequency distribution of the immediately preceding particle of the word corresponding to “ as a feature of determination.
前記経験語獲得手段は、
前記1度以上登場する各語が経験語であるかを判定する際に、
予めユーザから入力された1個以上の助詞の、各語の直前に出現する頻度の分布を判定の特徴として利用する手段を含む
請求項1記載の要因自明語獲得装置。
The experience word acquisition means includes
When determining whether each word that appears more than once is an experience word,
2. The factor trivial word acquisition apparatus according to claim 1, further comprising means for using, as a determination feature, a distribution of the frequency of one or more particles that are input in advance from a user and appearing immediately before each word.
前記要因語獲得手段は、
コーパス中における各語について、予め指定する要因を表す接続標識および経験語を含む言語パターンに合致する回数が一定回数以上となる語を要因自明語として抽出する手段を含む
請求項1記載の要因自明語獲得装置。
The factor word acquisition means is
The factor self-explanatory claim according to claim 1, further comprising means for extracting, as a factor self-explanatory word, a word whose number of matches with a language pattern including a connection indicator and an experience word representing a pre-designated factor for each word in the corpus Word acquisition device.
コーパス中に一度以上出現する各語のうち、要因を表す語である要因自明語を抽出することをコンピュータに実行させる要因自明語獲得方法であって、
入力手段が、経験語(以下、「経験語シード」と記す)の入力を受け付ける入力ステップと、
経験語獲得手段が、入力された前記経験語シードに基づいて、人々が自らの経験について記した経験記事及び経験語を格納した記憶手段を参照し、経験記事が要素となるコーパスがあるとき、1度以上登場する各語のコーパス中における、各経験記事内での出現位置傾向と、各語の品詞と、各語の直前出現助詞の頻度分布と、を用いて経験語を抽出する経験語獲得ステップと、
要因語獲得手段が、前記経験語獲得ステップで獲得した前記経験語と、要因助詞を含む言語パターンを用いて、前記記憶手段を参照し、コーパスから所定の出現回数以上の単語を要因自明語として抽出する要因語獲得ステップと、
を行うことを特徴とする要因自明語獲得方法。
Among the words appearing more than once in the corpus, a factor obvious word acquisition method of executing extracting the factors obvious word is a word that represents a factor in the computer,
An input step in which the input means receives an input of an experience word (hereinafter referred to as “experience word seed”);
Experience Katarie resulting unit, based on the experience word seed entered, people refers to the storage means for storing the experience articles and experience language noted for their experiences, when there is a corpus experience articles is an element Experience of extracting experience words using the tendency of appearance position in each experience article, the part of speech of each word, and the frequency distribution of the last appearing particle of each word in the corpus of each word appearing more than once A word acquisition step;
Factors word acquisition means, wherein the experience word acquired in the experience language acquisition step, using a language pattern including factors particle, by referring to the storage means, cause obvious words on a given occurrence times speed than from the corpus Factor word acquisition step to extract as words,
A factor trivial acquisition method characterized by
前記経験語獲得ステップにおいて、
前記1度以上登場する各語が経験語であるかを判定する際に、
予めユーザから入力された適切な1個以上の経験語の直前出現助詞の頻度分布と、前記コーパス中に一度以上出現する各語のうち品詞の種類が“名詞−サ変接続”もしくは“動詞−自立”に該当する単語の直前出現助詞の頻度分布との類似度を判定の特徴として利用する
請求項5記載の要因自明語獲得方法。
In the experience word acquisition step,
When determining whether each word that appears more than once is an experience word,
The frequency distribution of the immediately preceding appearing particles of one or more appropriate experience words input in advance by the user, and the type of part of speech of each word appearing more than once in the corpus is “noun-sa-variant connection” or “verb-independence” The method according to claim 5 , wherein the similarity with the frequency distribution of the immediately preceding particle of the word corresponding to "is used as a determination feature .
前記経験語獲得ステップにおいて、
前記1度以上登場する各語が経験語であるかを判定する際に、
予めユーザから入力された1個以上の助詞の、各語の直前に出現する頻度の分布を判定の特徴として利用する
請求項5記載の要因自明語獲得方法。
In the experience word acquisition step,
When determining whether each word that appears more than once is an experience word,
6. The factor trivial word acquisition method according to claim 5, wherein a distribution of the frequency of one or more particles previously input from a user appearing immediately before each word is used as a determination feature.
前記要因語獲得ステップにおいて、
コーパス中における各語について、予め指定する要因を表す接続標識および経験語を含む言語パターンに合致する回数が一定回数以上となる語を要因自明語として抽出する
請求項5記載の要因自明語獲得方法。
In the factor word acquisition step,
6. The factor trivial word acquisition method according to claim 5, wherein, for each word in the corpus, a word having a predetermined number of times that matches a language pattern including a connection indicator representing a factor designated in advance and an experience word is extracted as a factor trivial word. .
コンピュータを、
請求項1乃至4のいずれか1項に記載の要因自明語獲得装置の各手段として機能させるための要因自明語獲得プログラム。
Computer
A factor trivial word acquisition program for causing each factor of the factor trivial word acquisition device according to any one of claims 1 to 4 to function.
JP2011070941A 2011-03-28 2011-03-28 Factor trivial word acquisition device, method and program Expired - Fee Related JP5436484B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011070941A JP5436484B2 (en) 2011-03-28 2011-03-28 Factor trivial word acquisition device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011070941A JP5436484B2 (en) 2011-03-28 2011-03-28 Factor trivial word acquisition device, method and program

Publications (2)

Publication Number Publication Date
JP2012203870A JP2012203870A (en) 2012-10-22
JP5436484B2 true JP5436484B2 (en) 2014-03-05

Family

ID=47184756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011070941A Expired - Fee Related JP5436484B2 (en) 2011-03-28 2011-03-28 Factor trivial word acquisition device, method and program

Country Status (1)

Country Link
JP (1) JP5436484B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7409219B2 (en) 2020-05-12 2024-01-09 コニカミノルタ株式会社 Image forming system, transport control method and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048455A (en) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> Device for estimating interclause relationship and computer program

Also Published As

Publication number Publication date
JP2012203870A (en) 2012-10-22

Similar Documents

Publication Publication Date Title
Li et al. Major life event extraction from twitter based on congratulations/condolences speech acts
WO2017092555A1 (en) Method and device for parsing amount of money in judgement document
CN105095288B (en) Data analysis method and data analysis device
Donato et al. Investigating redundancy in emoji use: Study on a twitter based corpus
JP5245255B2 (en) Specific expression extraction program, specific expression extraction method, and specific expression extraction apparatus
CN107807962B (en) A method of similarity mode being carried out to legal decision document using LDA topic model
Wicaksono A proposed method for predicting US presidential election by analyzing sentiment in social media
CN106649276B (en) The recognition methods of core product word and device in title
CN102402717A (en) Data analysis facility and method
CN102880631A (en) Chinese author identification method based on double-layer classification model, and device for realizing Chinese author identification method
Williams et al. Extracting and modeling durations for habits and events from Twitter
CN106227720B (en) A kind of APP software users comment mode identification method
JP5542729B2 (en) Related word extraction device, related word extraction method, and related word extraction program
JP5436484B2 (en) Factor trivial word acquisition device, method and program
JP6733366B2 (en) Task estimation device, task estimation method, and task estimation program
Asali Social media analysis for investigating consumer sentiment on mobile banking
CN105786929B (en) A kind of information monitoring method and device
JP2008225846A (en) Word meaning tag application device and method, program, and recording medium
JP5611173B2 (en) Word attribute estimation apparatus, method, and program
CN109446318A (en) A kind of method and relevant device of determining auto repair document subject matter
JP5506629B2 (en) Quasi-frequent structure pattern mining apparatus, frequent structure pattern mining apparatus, method and program thereof
JP5180894B2 (en) Attribute expression acquisition method, apparatus and program
JP6103766B2 (en) Behavioral process extraction method and behavioral process extraction device
Wayasti et al. Mining Customer Opinion for Topic Modeling Purpose: Case Study of Ride-Hailing Service Provider
Suryaningrum Comparison of the TF-IDF method with the count vectorizer to classify hate speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130930

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131210

R150 Certificate of patent or registration of utility model

Ref document number: 5436484

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees