JP7178441B2 - 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体 - Google Patents
要約生成方法、装置、プログラム、電子デバイス及び記憶媒体 Download PDFInfo
- Publication number
- JP7178441B2 JP7178441B2 JP2021048484A JP2021048484A JP7178441B2 JP 7178441 B2 JP7178441 B2 JP 7178441B2 JP 2021048484 A JP2021048484 A JP 2021048484A JP 2021048484 A JP2021048484 A JP 2021048484A JP 7178441 B2 JP7178441 B2 JP 7178441B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- word
- representation
- words
- text file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Description
Claims (15)
- コンピュータにより実行される、要約生成方法であって、
処理待ちテキストファイルに対応する知識グラフを取得することであって、前記知識グラフにおけるノードが前記処理待ちテキストファイルの中の語義概念を表し、前記知識グラフにおけるエッジが語義概念間の語義関係を表す、知識グラフを取得することと、
前記処理待ちテキストファイルを単語レベルで符号化して各単語の文脈符号化表現を得ることと、
各単語の文脈符号化表現に基づいて前記知識グラフにおける各ノードの初期表現をそれぞれ特定することと、
各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得ることと、
各ノードのノード表現に基づいて復号化して前記処理待ちテキストファイルの要約を得ることと、を含み、
ノードと、他の1つのノードを介して前記ノードに接続されているノードである二階隣接ノードとの間の近道エッジを前記知識グラフに追加することと、
各ノードの初期表現と、前記近道エッジが追加された各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得ることと、をさらに含む、方法。 - 前記処理待ちテキストファイルは、N個のテキストを含み、Nは正整数であり、
前記処理待ちテキストファイルを単語レベルで符号化することは、事前訓練モデルを用いて前記処理待ちテキストファイルを単語レベルで符号化することを含む、請求項1に記載の方法。 - 前記各単語の文脈符号化表現に基づいて、前記知識グラフにおける各ノードの初期表現をそれぞれ特定することは、
何れか一つのノードについて、
前記ノードに対応する、数が1より多い統合すべき単語を取得できる場合、前記統合すべき単語の文脈符号化表現に基づいて前記ノードの初期表現を特定することと、
取得できない場合、前記ノードに対応する語義概念の文脈符号化表現を前記ノードの初期表現とすることであって、前記ノードに対応する語義概念は一つの単語である、初期表現とすることと、を含む請求項1に記載の方法。 - 前記ノードに対応する統合すべき単語を取得できることは、
対応する語義概念が一つの単語である何れか一つのノードについて、前記単語が前記処理待ちテキストファイルの中の少なくとも2つの異なる位置に出現したと判定された場合、異なる位置に出現した前記単語をすべて前記ノードに対応する統合すべき単語とし、表現方式が前記単語と異なるが、表現された語義が同じである他の単語が存在したと判定された場合に、前記他の単語及び前記単語をすべて前記ノードに対応する統合すべき単語とし、
対応する語義概念が一つのフレーズである何れか一つのノードについて、前記処理待ちテキストファイルの中の各位置に出現した、前記フレーズを構成する各単語を全て前記ノードに対応する統合すべき単語とし、かつ、表現方式が前記ノードに対応する語義概念と異なるが、表現された語義が同じである単語が存在したと判定された場合に、判定された単語を前記ノードに対応する統合すべき単語とする、ことを含む、請求項3に記載の方法。 - 前記統合すべき単語の文脈符号化表現に基づいて前記ノードの初期表現を特定することは、
何れか一つのノードについて、前記ノードに対応する各統合すべき単語の文脈符号化表現の加算値を算出し、前記加算値と前記ノードに対応する統合すべき単語の数との商を算出し、算出された商を前記ノードの初期表現とする、ことを含む請求項3に記載の方法。 - 前記各ノードのノード表現に基づいて符号化して前記処理待ちテキストファイルの要約を得ることは、
グラフによって伝達される注意メカニズムに基づいて、各ノードのノード表現に従って復号化して前記処理待ちテキストファイルの要約を得ること、を含む請求項1に記載の方法。 - グラフ解析モジュールと、単語符号化モジュールと、統合モジュールと、グラフ符号化モジュールと、グラフ復号化モジュールと、を備える要約生成装置であって、
前記グラフ解析モジュールは、処理待ちテキストファイルに対応する知識グラフを取得し、前記知識グラフにおけるノードは前記処理待ちテキストファイルの中の語義概念を表し、前記知識グラフにおけるエッジが語義概念間の語義関係を表し、
前記単語符号化モジュールは、前記処理待ちテキストファイルを単語レベルで符号化して各単語の文脈符号化表現を得、
前記統合モジュールは、各単語の文脈符号化表現に基づいて前記知識グラフにおける各ノードの初期表現をそれぞれ特定し、
前記グラフ符号化モジュールは、各ノードの初期表現および各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得、
前記グラフ復号化モジュールは、各ノードのノード表現に基づいて復号化して前記処理待ちテキストファイルの要約を得、
前記グラフ符号化モジュールは、さらに、ノードと、他の1つのノードを介して前記ノードに接続されているノードである二階隣接ノードとの間の近道エッジを前記知識グラフに追加し、各ノードの初期表現と前記近道エッジが追加された各ノード間の接続関係に基づいて符号化して各ノードのノード表現を得る、装置。 - 前記処理待ちテキストファイルは、N個のテキストを含み、Nは正整数であり、
前記単語符号化モジュールは、事前訓練モデルを用いて、前記処理待ちテキストファイルを単語レベルで符号化する、請求項7に記載の装置。 - 前記統合モジュールは、
何れか一つのノードに対して、前記ノードに対応する、数が1より多い統合すべき単語を取得できる場合、前記統合すべき単語の文脈符号化表現に基づいて前記ノードの初期表現を特定し、
できない場合、前記ノードに対応する語義概念の文脈符号化表現を前記ノードの初期表現とし、この場合、前記ノードに対応する語義概念は一つの単語である、請求項7に記載の装置。 - 前記統合モジュールは、対応する語義概念が一つの単語である何れか一つのノードに対して、前記単語が前記処理待ちテキストファイルの中の少なくとも2つの異なる位置に出現したと判定された場合、異なる位置に出現した前記単語をすべて前記ノードに対応する統合すべき単語とし、表現方法が前記単語と異なるが、表現された語義が同じである他の単語が存在したと判定された場合に、前記他の単語及び前記単語をすべて前記ノードに対応する統合すべき単語とし、
前記統合モジュールは、対応する語義概念が一つのフレーズである何れか一つのノードに対して、前記処理待ちテキストファイルの中の各位置に出現した、前記フレーズを構成する各単語を前記ノードに対応する統合すべき単語とし、かつ、表現方法が前記ノードに対応する語義概念と異なるが、表現された語義が同じである単語が存在したと判定された場合に、判定された単語を前記ノードに対応する統合すべき単語とする、請求項9に記載の装置。 - 前記統合モジュールは、何れか一つのノードについて、前記ノードに対応する各統合すべき単語の文脈符号化表現の加算値を算出し、前記加算値と前記ノードに対応する統合すべき単語の数との商を算出し、算出された商を前記ノードの初期表現とする、請求項9に記載の装置。
- 前記グラフ復号化モジュールは、グラフによって伝達された注意メカニズムに基づいて、各ノードのノード表現に基づいて復号化して前記処理待ちテキストファイルの要約を得る、請求項7に記載の装置。
- 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~6の何れか1項に記載の方法を実行させる電子デバイス。 - コンピュータに請求項1~6の何れか1項に記載の方法を実行させるコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
- コンピュータに請求項1~6の何れか1項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010993704.9A CN112148871B (zh) | 2020-09-21 | 2020-09-21 | 摘要生成方法、装置、电子设备及存储介质 |
CN202010993704.9 | 2020-09-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022051666A JP2022051666A (ja) | 2022-04-01 |
JP7178441B2 true JP7178441B2 (ja) | 2022-11-25 |
Family
ID=73893401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021048484A Active JP7178441B2 (ja) | 2020-09-21 | 2021-03-23 | 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220092252A1 (ja) |
EP (1) | EP3971761A1 (ja) |
JP (1) | JP7178441B2 (ja) |
KR (1) | KR20220039576A (ja) |
CN (1) | CN112148871B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580354B (zh) * | 2022-05-05 | 2022-10-28 | 阿里巴巴达摩院(杭州)科技有限公司 | 基于同义词的信息编码方法、装置、设备和存储介质 |
CN116484870B (zh) * | 2022-09-09 | 2024-01-05 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备及介质 |
CN115905598B (zh) * | 2023-02-24 | 2023-05-16 | 中电科新型智慧城市研究院有限公司 | 一种社会事件摘要生成的方法、装置、终端设备及介质 |
CN116484010B (zh) * | 2023-03-15 | 2024-01-16 | 北京擎盾信息科技有限公司 | 知识图谱构建方法、装置、存储介质及电子装置 |
CN116595192B (zh) * | 2023-05-18 | 2023-11-21 | 中国科学技术信息研究所 | 科技前沿信息获取方法、装置、电子设备和可读存储介质 |
CN116562275B (zh) * | 2023-06-09 | 2023-09-15 | 创意信息技术股份有限公司 | 一种结合实体属性图的自动文本摘要方法 |
CN116561299B (zh) * | 2023-07-10 | 2023-10-20 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 代码摘要生成方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040195897A1 (en) | 2001-06-12 | 2004-10-07 | Mitjans Jose Figueras | Backrest for armchairs |
JP2018067199A (ja) | 2016-10-20 | 2018-04-26 | 日本電信電話株式会社 | 要約生成装置、テキスト変換装置、方法、及びプログラム |
JP2018147238A (ja) | 2017-03-06 | 2018-09-20 | 株式会社日立製作所 | 発想支援装置及び発想支援方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7774198B2 (en) * | 2006-10-06 | 2010-08-10 | Xerox Corporation | Navigation system for text |
US9886501B2 (en) * | 2016-06-20 | 2018-02-06 | International Business Machines Corporation | Contextual content graph for automatic, unsupervised summarization of content |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
US11615240B2 (en) * | 2019-08-15 | 2023-03-28 | Salesforce.Com, Inc | Systems and methods for a transformer network with tree-based attention for natural language processing |
CN111506725B (zh) * | 2020-04-17 | 2021-06-22 | 北京百度网讯科技有限公司 | 生成摘要的方法和装置 |
US11397575B2 (en) * | 2020-12-15 | 2022-07-26 | Sap Se | Microservices graph generation |
-
2020
- 2020-09-21 CN CN202010993704.9A patent/CN112148871B/zh active Active
-
2021
- 2021-03-23 JP JP2021048484A patent/JP7178441B2/ja active Active
- 2021-03-25 US US17/212,331 patent/US20220092252A1/en not_active Abandoned
- 2021-04-23 EP EP21170145.3A patent/EP3971761A1/en not_active Withdrawn
- 2021-08-26 KR KR1020210113179A patent/KR20220039576A/ko unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040195897A1 (en) | 2001-06-12 | 2004-10-07 | Mitjans Jose Figueras | Backrest for armchairs |
JP2018067199A (ja) | 2016-10-20 | 2018-04-26 | 日本電信電話株式会社 | 要約生成装置、テキスト変換装置、方法、及びプログラム |
JP2018147238A (ja) | 2017-03-06 | 2018-09-20 | 株式会社日立製作所 | 発想支援装置及び発想支援方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112148871A (zh) | 2020-12-29 |
KR20220039576A (ko) | 2022-03-29 |
JP2022051666A (ja) | 2022-04-01 |
CN112148871B (zh) | 2024-04-12 |
US20220092252A1 (en) | 2022-03-24 |
EP3971761A1 (en) | 2022-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7178441B2 (ja) | 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体 | |
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
US10360308B2 (en) | Automated ontology building | |
JP7264866B2 (ja) | イベント関係の生成方法、装置、電子機器及び記憶媒体 | |
JP7126542B2 (ja) | データセット処理方法、装置、電子機器及び記憶媒体 | |
JP7228662B2 (ja) | イベント抽出方法、装置、電子機器及び記憶媒体 | |
JP2021190087A (ja) | テキスト認識処理方法、装置、電子機器及び記憶媒体 | |
JP7179123B2 (ja) | 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体 | |
JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP5513898B2 (ja) | 共有された言語モデル | |
KR102521765B1 (ko) | 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체 | |
JP7234483B2 (ja) | エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム | |
JP7149993B2 (ja) | 感情分析モデルの事前トレーニング方法、装置及び電子機器 | |
JP7413630B2 (ja) | 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体 | |
JP2022008207A (ja) | トリプルサンプルの生成方法、装置、電子デバイス及び記憶媒体 | |
CN112506949B (zh) | 结构化查询语言查询语句生成方法、装置及存储介质 | |
KR102561951B1 (ko) | 모델링 매개 변수의 설정 방법, 장치, 전자 기기 및 기록 매체 | |
KR20200063281A (ko) | 신경망 자동 번역 장치 및 그 방법 | |
CN111831814A (zh) | 摘要生成模型的预训练方法、装置、电子设备和存储介质 | |
EP3855341A1 (en) | Language generation method and apparatus, electronic device and storage medium | |
CN111310481B (zh) | 语音翻译方法、装置、计算机设备和存储介质 | |
JP7286737B2 (ja) | テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム | |
US11893977B2 (en) | Method for recognizing Chinese-English mixed speech, electronic device, and storage medium | |
CN109828775B (zh) | 一种多语言翻译文本内容的web管理系统及方法 | |
JP7146986B2 (ja) | 情報抽出方法、情報抽出装置及び電子機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7178441 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |