JP6830971B2 - 文章生成のためのデータを生成するシステム及び方法 - Google Patents
文章生成のためのデータを生成するシステム及び方法 Download PDFInfo
- Publication number
- JP6830971B2 JP6830971B2 JP2019002373A JP2019002373A JP6830971B2 JP 6830971 B2 JP6830971 B2 JP 6830971B2 JP 2019002373 A JP2019002373 A JP 2019002373A JP 2019002373 A JP2019002373 A JP 2019002373A JP 6830971 B2 JP6830971 B2 JP 6830971B2
- Authority
- JP
- Japan
- Prior art keywords
- expression
- data
- phrase
- sentence
- annotation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[第1の実施の形態]
以下、本発明の第1の実施の形態の文章生成システムについて説明する。本発明の第1の実施の形態の文章生成システムは、9つのモジュールが結合された生成システムと,データ管理システムからなるシステムである。具体的なハードウェア構成の例は図12に示すとおり、入力装置1202、出力装置1203、各モジュールを実行するプログラムが記録されたメモリ1205、テキストデータDBやテキストアノテーションデータDB113等を含む記憶装置1207で構成される。
,ニュース記事などのテキストデータである,テキストアノテーションデータDB113は,テキストデータDB112に付与されたデータである。検索用インデックスDB114は,テキストデータDB112とテキストアノテーションデータDB113を検索可能にするためのインデックスである。争点オントロジDB115は,ディベートでよく議論になる争点と,その関連語を紐づけたデータベースである。
+ (争点オントロジ内の単語が出現する回数)
− (記事の古さ)
ここで記事の古さは,最新年が2014年とすると,2014年に発行された記事は0,2013年に発行された記事は1,2012年に発行された記事は2となる。続いてS504で,スコアの高い上記100件の記事を出力する。このように、単語の出現回数が高い記事のスコアを上げることで、議題や争点との関係性が高い記事が発見できる。また、記事の古さについてもスコアをつけることで、より新しいデータが反映された記事を発見でき、最終的に出力する文章の説得力を増すことができる。
(1−1)
議題に対する意見文を出力する文章生成システムであって、
前記議題が入力される入力部と、
前記議題を解析し、前記議題の極性と検索に用いるキーワードとを判定する議題解析部と、
前記キーワードと、議論における争点を示す争点語とを用いて記事を検索する検索部と、
前記意見文を生成する際に用いる前記争点を決定する争点決定部と、
前記検索部が出力した記事から、前記争点について述べている文を抽出する文抽出部と、
前記文を並び替えることにより文章を生成する文並び替え部と、
前記文章を評価する評価部と、
前記文章に対して、適切な接続詞を挿入する言い換え部と、
複数の前記文章のうち、最も評価の高い文章を前記意見文として出力する出力部と、を有することを特徴とする文章生成システム。
(1−2)
(1−1)に記載の文章生成システムにおいて,
前記争点決定部は,前記検索部が出力した記事を分類することで、前記記事ごとに前記争点を決定することを特徴とする,文章生成システム。
(1−3)
(1−1)に記載の文章生成システムにおいて,
前記検索部が検索する記事のテキストデータと,
前記テキストデータに付与されたアノテーションデータと,
前記テキストデータと前記アノテーションデータとから生成した検索用インデックスと,
前記争点と、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である争点促進語とを関連づけた争点オントロジと,が蓄積された記憶部と、
前記検索部,前記争点決定部,前記文抽出部,前記文並び替え部,前記評価部,前記言い換え部とデータをやり取りするインターフェース部と,
をさらに備えることを特徴とする,文章生成システム。
(1−4)
(1−3)に記載の文章生成システムにおいて、
前記議題解析部は、前記議題の極性を判定することで、前記キーワードとして前記抑制語または前記促進語のいずれを用いるかを決定することを特徴とする文章生成システム。
(1−5)
(1−3)に記載の文章生成システムにおいて、
前記記憶部にはさらに、評価モデルが蓄積され、
前記評価部は、複数の前記文章と前記評価モデルとの尤度をそれぞれ算出し、最も尤度が高い前記文章を前記意見文として出力することを特徴とする文章生成システム。
(1−6)
議題に対する意見文を出力する文章生成方法であって、
前記議題が入力される第1ステップと、
前記議題を解析し、前記議題の極性と検索に用いるキーワードとを判定する第2ステップと、
前記キーワードと、議論における争点を示す争点語とを用いて記事を検索する第3ステップと、
前記意見文を生成する際に用いる前記争点を決定する第4ステップと、
前記第3ステップで出力された記事から、前記争点について述べている文を抽出する第5ステップと、
前記文を並び替えることにより文章を生成する第6ステップと、
前記文章を評価する第7ステップと、
前記文章に対して、適切な接続詞を挿入する第8ステップと、
複数の前記文章のうち、最も評価の高い文章を前記意見文として出力する第9ステップと、を有することを特徴とする文章生成方法。
(1−7)
(1−6)に記載の文章生成方法において,
前記第4ステップでは,前記第3ステップで出力した記事を分類することで、前記記事ごとに前記争点を決定することを特徴とする,文章生成方法。
(1−8)
(1−6)に記載の文章生成方法において,
前記第3ステップでは、
検索する記事のテキストデータと,
前記テキストデータに付与されたアノテーションデータと,
前記テキストデータと前記アノテーションデータとから生成した検索用インデックスと,
前記争点と、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である争点促進語とを関連づけた争点オントロジと,が蓄積された記憶部に対して検索を行うことを特徴とする,文章生成システム。
(1−9)
(1−8)に記載の文章生成方法において、
前記第2ステップでは、前記議題の極性を判定することで、前記キーワードとして前記抑制語または前記促進語のいずれを用いるかを決定することを特徴とする文章生成方法。
(1−10)
(1−8)に記載の文章生成方法において、
前記記憶部にはさらに、評価モデルが蓄積され、
前記第7ステップでは、複数の前記文章と前記評価モデルとの尤度をそれぞれ算出し、最も尤度が高い前記文章を前記意見文として出力することを特徴とする文章生成方法。
(2−1)
文章生成システムであって、
演算装置と記憶装置とを含み、
前記記憶装置は、
記事のテキストデータと、
議題における争点を含む争点語を格納する争点データと、を保持し、
前記争点語は、それぞれが前記争点に対応付けられた、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、を含み、
前記演算装置は、
議題の入力を受け付け、
前記議題の構文解析木を生成し、
前記構文解析木の所定の構文タグを有する部分木に含まれる名詞句をキーワードとして決定し、
前記キーワードを含む記事を前記テキストデータから検索し、
検索結果に含まれる記事における前記争点語の出現回数に基づいて、前記検索結果から記事を選択し、
前記抑制語と前記促進語とを取得し、
前記選択した記事ごとに、前記争点データに含まれる各争点に対応する前記抑制語及び前記促進語の前記選択した記事における出現回数を算出し、
前記選択した記事ごとに、前記算出した出現回数に基づいて、前記争点データから争点を決定し、
争点と文との関連性を示す所定の条件と前記選択した記事との比較結果に基づいて、前記選択した記事から、前記決定した争点について述べている文を抽出し、
前記抽出した文の特徴量に基づいて、当該文が主張、理由、又は例のいずれかの種類に該当するかを示すラベルを、前記抽出した文それぞれに付し、
ラベルが付された文の順序を示す所定のテンプレートと、前記抽出した文それぞれに付したラベルと、に基づいて、前記抽出した文を並び替えることにより、文章を生成することを特徴とする文章生成システム。
(2−2)
(2−1)に記載の文章生成システムにおいて、
前記記憶装置は、
前記テキストデータに付与されたアノテーションデータと、
前記テキストデータと前記アノテーションデータとから生成され、前記テキストデータと前記アノテーションデータを検索するためのインデックスである検索用インデックスと、を保持し、
前記演算装置は、前記検索用インデックスのインデックスを用いて、前記キーワードを含む記事を前記テキストデータから検索することを特徴とする、文章生成システム。
(2−3)
(2−1)に記載の文章生成システムにおいて、
前記記憶装置は、文章から評価値を算出する評価モデルを保持し、
前記演算装置は、
前記評価モデルを用いて前記生成した文章の評価値を取得し、
複数の前記生成した文章のうち、最も評価値の高い文章に接続詞が挿入された文章を前記議題に対する意見文として出力し、
前記接続詞の挿入において、
前記意見文に含まれる連続する文それぞれのBag−of−wordsによる特徴量を比較して、当該連続する文の間に挿入する接続詞を推定し、
前記推定した接続詞を当該連続する文の間に挿入することを特徴とする文章生成システム。
(2−4)
(2−1)に記載の文章生成システムにおいて、
前記演算装置は、
対象に対して肯定的な意味を持つ肯定的動詞と、対象に対して否定的な意味を持つ否定的動詞と、を区別して保持する辞書情報を取得し、
前記議題に含まれる否定表現、並びに前記議題に含まれる前記辞書情報が示す前記肯定的動詞及び前記否定的動詞に基づいて、前記議題のキーワードに対する極性を判定し、
前記極性に基づいて、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、の一方を選択して取得し、
前記取得した一方と前記キーワードとを含む前記記事の検索を行うことを特徴とする文章生成システム。
(2−5)
(2−3)に記載の文章生成システムにおいて、
前記演算装置は、
複数の前記生成した文章それぞれと前記評価モデルとの尤度を算出し、
複数の前記生成した文章のうち、前記算出した尤度が最も高い文章を前記意見文として出力することを特徴とする文章生成システム。
(2−6)
文章生成システムによる文章生成方法であって、
前記文章生成システムは、
記事のテキストデータと、
議題における争点を含む争点語を格納する争点データと、を保持し、
前記争点語は、それぞれが前記争点に対応付けられた、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、を含み、
前記文章生成方法は、
前記文章生成システムが、
議題の入力を受け付け、
前記議題の構文解析木を生成し、
前記構文解析木の所定の構文タグを有する部分木に含まれる名詞句をキーワードとして決定し、
前記キーワードを含む記事を前記テキストデータから検索し、
検索結果に含まれる記事における前記争点語の出現回数に基づいて、前記検索結果から記事を選択し、
前記抑制語と前記促進語とを取得し、
前記選択した記事ごとに、前記争点データに含まれる各争点に対応する前記抑制語及び前記促進語の前記選択した記事における出現回数を算出し、
前記選択した記事ごとに、前記算出した出現回数に基づいて、前記争点データから争点を決定し、
争点と文との関連性を示す所定の条件と前記選択した記事との比較結果に基づいて、前記選択した記事から、前記決定した争点について述べている文を抽出し、
前記抽出した文の特徴量に基づいて、当該文が主張、理由、又は例のいずれかの種類に該当するかを示すラベルを、前記抽出した文それぞれに付し、
ラベルが付された文の順序を示す所定のテンプレートと、前記抽出した文それぞれに付したラベルと、に基づいて、前記抽出した文を並び替えることにより、文章を生成することを特徴とする文章生成方法。
(2−7)
(2−6)に記載の文章生成方法において、
前記文章生成システムは、
前記テキストデータに付与されたアノテーションデータと、
前記テキストデータと前記アノテーションデータとから生成され、前記テキストデータと前記アノテーションデータを検索するためのインデックスである検索用インデックスと、を保持し、
前記文章生成方法は、前記文章生成システムが、前記検索用インデックスのインデックスを用いて、前記キーワードを含む記事を前記テキストデータから検索することを特徴とする、文章生成方法。
(2−8)
(2−6)に記載の文章生成方法において、
前記文章生成システムは、文章から評価値を算出する評価モデルを保持し、
前記文章生成方法は、
前記文章生成システムが、
前記評価モデルを用いて前記生成した文章の評価値を取得し、
複数の前記生成した文章のうち、最も評価値の高い文章に接続詞が挿入された文章を前記議題に対する意見文として出力し、
前記接続詞の挿入において、
前記意見文に含まれる連続する文それぞれのBag−of−wordsによる特徴量を比較して、当該連続する文の間に挿入する接続詞を推定し、
前記推定した接続詞を当該連続する文の間に挿入することを特徴とする文章生成方法。
(2−9)
(2−6)に記載の文章生成方法において、
前記文章生成システムが、
対象に対して肯定的な意味を持つ肯定的動詞と、対象に対して否定的な意味を持つ否定的動詞と、を区別して保持する辞書情報を取得し、
前記議題に含まれる否定表現、並びに前記議題に含まれる前記辞書情報が示す前記肯定的動詞及び前記否定的動詞に基づいて、前記議題のキーワードに対する極性を判定し、
前記極性に基づいて、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、の一方を選択して取得し、
前記取得した一方と前記キーワードとを含む前記記事の検索を行うことを特徴とする文章生成方法。
(2−10)
(2−8)に記載の文章生成方法において、
前記文章生成システムが、
複数の前記生成した文章それぞれと前記評価モデルとの尤度を算出し、
複数の前記生成した文章のうち、前記算出した尤度が最も高い文章を前記意見文として出力することを特徴とする文章生成方法。
101…データ管理システム、
102…入力部、
103…議題解析部、
104…検索部、
105…争点決定部、
106…文抽出部、
107…文並び替え部、
108…評価部、
109…言い換え部、
110…出力部、
111…インターフェース
112…テキストデータデータベース、
113…テキストアノテーションデータデータベース,
114…検索用インデックスデータベース,
115…争点オントロジデータベース。
Claims (8)
- 文章生成のためのデータを生成するシステムであって、
演算装置と記憶装置とインターフェースとを含み、
前記記憶装置は、記事のテキストデータと、議題を示す名詞句と、を保持し、
前記演算装置は、
それぞれ予め定められた抑制表現及び促進表現を前記テキストデータから抽出し、
前記テキストデータに対する構文解析の結果に基づいて、前記テキストデータから、前記抑制表現の主体を示す語句と、前記抑制表現によって抑制される事象を示す語句と、前記促進表現の主体を示す語句と、前記促進表現によって促進される事象を示す語句と、を抽出し、
前記抑制表現は、前記名詞句が示す議題における争点を抑制する意味の単語であり、
前記促進表現は、前記争点を促進する意味の単語であり、
前記演算装置は、
前記抑制表現と、前記促進表現と、前記抑制表現の主体を示す語句と、前記抑制表現によって抑制される事象を示す語句と、前記促進表現の主体を示す語句と、前記促進表現によって促進される事象を示す語句と、を含むアノテーション対象語句を、前記テキストデータを識別する情報と対応づけて、前記データとしてのアノテーションデータに含め、
前記アノテーションデータを前記記憶装置に格納し、
前記インターフェースを介して前記アノテーションデータを出力可能である、システム。 - 請求項1に記載のシステムであって、
前記演算装置は、
前記アノテーション対象語句それぞれについて、
前記アノテーション対象語句の前記テキストデータ内における位置情報を取得し、
前記取得した位置情報を、前記アノテーション対象語句と対応づけて、前記アノテーションデータに含める、システム。 - 請求項1に記載のシステムであって、
前記演算装置は、
前記抽出した抑制表現を、前記テキストデータ内において当該抑制表現の主体を示す語句及び当該抑制表現によって抑制される事象を示す語句と対応づけて、前記アノテーションデータに含め、
前記抽出した促進表現を、前記テキストデータ内において当該促進表現の主体を示す語句及び当該抑制表現によって抑制される事象を示す語句と対応づけて、前記アノテーションデータに含める、システム。 - 請求項1に記載のシステムであって、
前記演算装置は、
前記テキストデータと前記アノテーションデータとから、前記アノテーションデータを検索するためのインデックスである検索用インデックスを生成し、
前記検索用インデックスを、前記記憶装置に格納する、システム。 - システムが文章生成のためのデータを生成する方法であって、
前記システムは、演算装置と記憶装置とインターフェースとを含み、
前記記憶装置は、記事のテキストデータと、議題を示す名詞句と、を保持し、
前記方法は、
前記演算装置が、それぞれ予め定められた抑制表現及び促進表現を前記テキストデータから抽出し、
前記演算装置が、前記テキストデータに対する構文解析の結果に基づいて、前記テキストデータから、前記抑制表現の主体を示す語句と、前記抑制表現によって抑制される事象を示す語句と、前記促進表現の主体を示す語句と、前記促進表現によって促進される事象を示す語句と、を抽出し、
前記抑制表現は、前記名詞句が示す議題における争点を抑制する意味の単語であり、
前記促進表現は、前記争点を促進する意味の単語であり、
前記方法は、
前記演算装置が、前記抑制表現と、前記促進表現と、前記抑制表現の主体を示す語句と、前記抑制表現によって抑制される事象を示す語句と、前記促進表現の主体を示す語句と、前記促進表現によって促進される事象を示す語句と、を含むアノテーション対象語句を、前記テキストデータを識別する情報と対応づけて、前記データとしてのアノテーションデータに含め、
前記演算装置が、前記アノテーションデータを前記記憶装置に格納し、
前記演算装置が、前記インターフェースを介して前記アノテーションデータを出力可能である、方法。 - 請求項5に記載の方法であって、
前記演算装置が、
前記アノテーション対象語句それぞれについて、
前記アノテーション対象語句の前記テキストデータ内における位置情報を取得し、
前記取得した位置情報を、前記アノテーション対象語句と対応づけて、前記アノテーションデータに含める、方法。 - 請求項5に記載の方法であって、
前記演算装置が、
前記抽出した抑制表現を、前記テキストデータ内において当該抑制表現の主体を示す語句及び当該抑制表現によって抑制される事象を示す語句と対応づけて、前記アノテーションデータに含め、
前記抽出した促進表現を、前記テキストデータ内において当該促進表現の主体を示す語句及び当該抑制表現によって抑制される事象を示す語句と対応づけて、前記アノテーションデータに含める、方法。 - 請求項5に記載の方法であって、
前記演算装置が、前記テキストデータと前記アノテーションデータとから、前記アノテーションデータを検索するためのインデックスである検索用インデックスを生成し、
前記演算装置が、前記検索用インデックスを、前記記憶装置に格納する、方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019002373A JP6830971B2 (ja) | 2019-01-10 | 2019-01-10 | 文章生成のためのデータを生成するシステム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019002373A JP6830971B2 (ja) | 2019-01-10 | 2019-01-10 | 文章生成のためのデータを生成するシステム及び方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016551422A Division JP6466952B2 (ja) | 2014-10-01 | 2014-10-01 | 文章生成システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019083040A JP2019083040A (ja) | 2019-05-30 |
JP6830971B2 true JP6830971B2 (ja) | 2021-02-17 |
Family
ID=66670510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019002373A Active JP6830971B2 (ja) | 2019-01-10 | 2019-01-10 | 文章生成のためのデータを生成するシステム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6830971B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102419648B1 (ko) * | 2019-11-15 | 2022-07-12 | 한국과학기술원 | 언어의 구체성 및 설득 전략 나열에 기반하여 문서의 설득력을 판단하고 향상시키는 방법 및 시스템 |
CN111341305B (zh) * | 2020-03-05 | 2023-09-26 | 苏宁云计算有限公司 | 一种音频数据标注方法、装置及系统 |
CN111783441B (zh) * | 2020-08-08 | 2024-05-24 | 中国人民解放军国防科技大学 | 一种基于支持向量机的对话语句正确性评价方法 |
-
2019
- 2019-01-10 JP JP2019002373A patent/JP6830971B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019083040A (ja) | 2019-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6466952B2 (ja) | 文章生成システム | |
El-Kassas et al. | Automatic text summarization: A comprehensive survey | |
Saggion et al. | Automatic text simplification | |
CN109241538B (zh) | 基于关键词和动词依存的中文实体关系抽取方法 | |
US10496928B2 (en) | Non-factoid question-answering system and method | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
JP6830971B2 (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
Pak et al. | Twitter for sentiment analysis: When language resources are not available | |
CN110532328A (zh) | 一种文本概念图构造方法 | |
Das et al. | Sentiment analysis of movie reviews using POS tags and term frequencies | |
Bansal | Advanced Natural Language Processing with TensorFlow 2: Build effective real-world NLP applications using NER, RNNs, seq2seq models, Transformers, and more | |
Dornescu et al. | Relative clause extraction for syntactic simplification | |
Bassa et al. | GerIE-An Open Information Extraction System for the German Language. | |
Jha et al. | Hsas: Hindi subjectivity analysis system | |
US20240012840A1 (en) | Method and apparatus with arabic information extraction and semantic search | |
Antić | Python Natural Language Processing Cookbook: Over 50 recipes to understand, analyze, and generate text for implementing language processing tasks | |
Duarte | Sentiment analysis on Twitter for the Portuguese language | |
Garcia-Gorrostieta et al. | Argument component classification in academic writings | |
Sikos et al. | Authorship analysis of inspire magazine through stylometric and psychological features | |
Diamantini et al. | Semantic disambiguation in a social information discovery system | |
Ranjan et al. | Automatic labelling of important terms and phrases from medical discussions | |
JP7227705B2 (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
Sarkar et al. | Text Summarization | |
Emani et al. | Improving open information extraction for semantic web tasks | |
Alotaibi | Sentiment analysis in arabic: An overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200508 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200908 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201207 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20201207 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20201215 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20201222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6830971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |