CN109902305A - 基于命名实体识别的模板生成、搜索及文本生成设备与方法 - Google Patents
基于命名实体识别的模板生成、搜索及文本生成设备与方法 Download PDFInfo
- Publication number
- CN109902305A CN109902305A CN201910160649.2A CN201910160649A CN109902305A CN 109902305 A CN109902305 A CN 109902305A CN 201910160649 A CN201910160649 A CN 201910160649A CN 109902305 A CN109902305 A CN 109902305A
- Authority
- CN
- China
- Prior art keywords
- text
- template
- search
- unit
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于命名实体识别的模板生成、搜索及文本生成设备与方法,包括:语料库、模板生成设备、模板存取设备、模板库、输入文本或关键词、文本生成设备、输出文本。其优点表现在:文本模板生成器可以生成多种文本模板,解决了目前文本模板生成单一的问题,增加了文本模板生成的多样化,且可以根据多种场景下生成最佳的模板,能够随时应对客户需求,让客户自主选择使用更加方便、快捷。
Description
技术领域
本发明涉及自然语言处理的技术领域,具体地说,是一种基于命名实体识别的模板生成、搜索及文本生成设备与方法。
背景技术
随着互联网技术的迅猛发展以及计算机技术的日新月异,越来越多的行业开始借助计算机及相关算法的力量,提高运行效率,实现产业升级。其中,自然语言处理技术(NLP)扮演者举足轻重的作用。自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。它研究如何实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是一门涉及计算机科学、语言学、数学等的交叉学科。
自然语言处理技术包含两个主要技术领域:自然语言理解和自然语言生成。其中自然语言理解方向,主要是为了让计算机更好的“理解”人类的语言,例如基础的词法、句法、文法等。而自然语言生成方向,主要是为了让计算机能够自动生成人类能够理解的语言,例如自动摘要,文章生成等。
目前的文本生成方法主要有基于语法的方法,基于统计的方法和基于模板对的方法。基于模板的方法经常被用来生成结构较为固定的文本情况。例如天气预报文本,通知消息文本等(“今天天气_,气温_摄氏度到_摄氏度,紫外线强弱指数_”)。由于人工编写模板成本较高,因此模板数量往往较为有限,生成文本的形式也比较单一。
中国专利文献:CN101470700A,公开日:2009.07.01,公开了一种文本生成器、文本生成设备、文本检验设备及其方法,其中该文本模板生成器包括:槽位置确定单元,用于根据约束条件确定输入的文本中需要被替换的词的位置,作为槽位置;以及目标替换确定单元,用于根据约束条件确定替换槽位置的对象,从而生成包括对象的文本模板。由此可以根据不同的约束条件生成符合要求的模板。
中国专利文献:CN109065183A,公开日;2018.12.21,公开了一种问诊对话模板生成及问诊数据获取方法、装置、计算机设备和储存介质。所述方法包括:获取问诊对话数据集,问诊对话数据集包括有序的提问数据及对应的应答数据;按照提问数据的排序,分别生成对应的问诊节点;从提问数据中提取关键词,并根据提问关键词设定对应的问诊节点属性;根据提问数据和应答数据,确定问诊节点间的节点流转条件;将各问诊节点按照节点流转条件依次连接,得到问诊对话模板。
但是关于本发明一种基于命名实体识别的模板生成、搜索及文本生成设备与方法目前还未见报道。
发明内容
本发明的目的是主要针对现有的模板生成文本方法中,需要通过人工的方式预先规定相关规则,再生成相应模板,导致模板数量较少,进而生成文本的语言形式较为单调的问题。研究通过计算机算法从语料文本中自动抽取信息,生成相关模板。在生成文本时,先搜索出相关度最高,最合适的模板,再通过替换等方式实现文本生成。由此,除了在天气预报,消息通知等语言形式较为固定的场景,还能在一些诸如商品描述、图片描述等需要语言形式有一定多样性及丰富度的场景下,也可利用模板方法生成文本,从而提高生产效率,降低人工劳动。
为实现上述目的,本发明采取的技术方案是:
所述一种文本模板生成器包括文本预处理单元,对文本进行预处理;以及命名实体识别单元,用于根据命名实体识别技术识别并标记文本中的相关实体,从而确定文本中需要被替换的词的位置,作为待替换位置;以及实体关系确定单元,用于根据语义分析及文法分析确定实体之间的关系,根据关系对实体进行分组,而每个实体对应模板中的一个待替换位置,由此便得到了包含若干组待替换位置的模板;以及辅助信息生成单元,用于根据规则生成相关辅助信息,用来辅助后面的搜索过程。
所述一种模板存取设备包括:文本预处理单元,对文本进行预处理;以及模板储存单元,用于将生成模板及相关辅助信息存入搜索引擎;以及模板搜索单元,用于根据输入的文本或关键词,按照一定的规则及方法,构造相应的搜索条件,搜索得到相关的模板。
所述文本生成设备包括:文本预处理单元,对文本进行预处理;以及文本生成单元,用于根据输入的文本或关键词,依据一定的规则及文法对模板进行替换,从而生成所需文本。
所述预处理单元会对文本进行预处理,再通过命名实体识别单元识别出文本中的各种实体。
所述实体关系确定单元是通过分词、词性标注,文法分析等方式,获取实体之间的依赖关系,从而将实体分为多组,每组包含一个主体,多个属性词。
所述辅助信息生成单元是通过一定的规则,包括文法、统计等,生成模板相关的辅助信息,用于优化后面的搜索过程。
所述模板储存单元负责将生成的模板及相关辅助信息存入搜索引擎。
所述模板搜索单元负责根据输入的文本或关键词(其中文本需进行分词处理),去除用词之后再获取关键词类别信息,再根据一定规则生成查询条件,从搜索引擎中搜索相关的模板。
所述输入的文本或关键词(其中文本需要进行分词处理),去除停用词之后,在按照一定的关系规则,填入搜索得到的模板中,从而得到生成的文本。由于模板的多样性,生成的文本也具有一定的多样性。
本发明优点在于:
1、文本模板生成器可以生成多种文本模板,解决了目前文本模板生成单一的问题,增加了文本模板生成的多样化,且可以根据多种场景下生成最佳的模板,能够随时应对客户需求,让客户自主选择。
2、本发明生成模板速度快,具有及时性和准确性,模板的使用更加节省了代码的使用量,使用更加方便,更加快捷。
3、本发明很大程度上节约了成本,节省了人工编写的时间,有利于文本模板生成效率的提高,可以依据现有模板进行替换,生成新的模板。
4、本发明文档模板储存于服务器端,在文档模板数量较多时,无需占用本地储存空间,节省了设备的存储要求,保证了模板不被客户随意删除。
附图说明
附图1是一种基于命名实体识别的模板生成、搜索及文本生成设备与方法的整体流程图。
附图2是一种基于命名实体识别的模板生成、搜索及文本生成设备与方法的模板生成流程图。
附图3是一种基于命名实体识别的模板生成、搜索及文本生成设备与方法的模板搜索流程图。
附图4是一种基于命名实体识别的模板生成、搜索及文本生成设备与方法的文本生成流程图。
具体实施方式
下面结合附图对本发明提供的具体实施方式作详细说明。
附图中涉及的附图标记和组成部分如下所示:
00、语料库
01、模板生成设备
02、模板存取设备
03、模板库
04、输入文本或关键词
05、文本生成设备
06、输入文本
10、输入文本
11、文本预处理单元
12、命名实体识别单元
13、实体关系确定单元
14、辅助信息生成单元
15、模板及相关辅助信息
16、模板存取设备
17、模板库
20、输入文本或关键词
21、文本预处理单元
22、模板搜索单元
23、模板库
24、模板
30、输入文本或关键词
31、文本预处理单元
32、文本生成单元
33、搜索得到的模板
34、文本库
实施例1
请参照附图1,附图1是本发明的整体流程图。所述整体流程包括语料库00、模板生成设备01、模板存取设备02、模板库03、输入文本或关键词04、文本生成设备05、输入文本06;所述一种基于命名实体识别的模板生成、搜索及文本生成设备与方法的整体流程是:
首先从语料库00提取采集的语料,通过模板生成设备01,将每一条语料生成对应模板及相关辅助信息;然后,模板存取设备02将生成的模板存入模板库03;接下来,当有文本或关键词04输入时,模板存取设备02通过输入的文本或关键词04,生成搜索条件,从模板库03搜索出相应的模板,传入文本生成设备05;文本生成设备05再根据输入的模板,结合此前输入的文本或关键词04信息,生成对应的输出文本06。
实施例2
请参照附图2、附图2是本发明整体流程中的模板生成流程图。所述模板生成流程包括输入文本10、文本预处理单元11、命名实体识别单元12、实体关系确定单元13、辅助信息生成单元14、模板及相关辅助信息15、模板存取设备16、模板库17;所述种基于命名实体识别的模板生成、搜索及文本生成设备与方法的模板生成流程是:
首先对于输入文本10,文本预处理单元11先进行预处理;然后命名实体识别单元12识别文本中的相关类型实体并标记位置;再通过实体关系确定单元13确定实体间的关系,于是,将实体转换为待替换位置后,实体间的关系即为待替换位置间的关系。此后,需要辅助信息生成单元14根据一定规则及文法,生成模板的搜索辅助信息。最后,通过模板存取设备16将模板及相关辅助信息15存入模板库17。
实施例3
请参照附图3,附图3是本发明整体流程中的模板搜索过程图。所述模板搜索过程包括输入文本或关键词20、文本预处理单元21、模板搜索单元22、模板库23、模板24;所述一种基于命名实体识别的模板生成、搜索及文本生成设备与方法的模板搜索流程是:
首先通过文本预处理单元21对输入的文本或关键词20进行预处理,然后模板搜索单元22根据相应规则,将预处理得到的结果,转换为搜索条件,从模板库23中搜索出相关模板24。
实施例4
请参照附图4,附图4是本发明整体流程中的文本生成流程图。所述的文本生成流程包括输入文本或关键词30、文本预处理单元32、搜索得到的模板33、文本库34;所述一种基于命名实体识别的模板生成、搜索及文本生成设备与方法的文本生成流程是:
首先通过文本预处理单元31对输入的文本或关键词30进行预处理,然后文本生成单元32根据相应规则,将预处理得到的结果,填入搜索得到的模板33中,完成文本的生成过程,将其直接输出或存入文本库34中。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
Claims (9)
1.一种文本模板生成器,其特征在于,所述一种文本模板生成器包括:文本预处理单元,对文本进行预处理;以及命名实体识别单元,用于根据命名实体识别技识别并标记文本中的相关实体,从而确定文本中需要被替换的词的位置,作为待替换位置;以及实体关系确定单元,用于根据语义分析及文法分析确定实体之间的关系,根据关系对实体进行分组,而每个实体对应模板中的一个待替换位置,由此便得到了包含若干组待替换位置的模板;以及辅助信息生成单元,用于根据规则生成相关辅助信息,用来辅助后面的搜索过程。
2.一种模板存取设备,包括:文本预处理单元,对文本进行预处理;以及模板存储单元,用于将生成的模板及相关辅助信息存入搜索引擎;以及模板搜索单元,用于根据输入的文本或关键词,按照一定的规则及文法,构造相应的搜索条件,搜索得到相关的模板。
3.一种文本生成设备,包括:文本预处理单元,对文本进行预处理;以及文本生成单元,用于根据输入的文本或关键词,依据一定的规则及文法对模板进行替换,从而生成所需文本。
4.根据权利要求1所述的设备,其中预处理单元会对文本进行预处理,再通过命名实体识别单元识别出文本中的各种实体。
5.根据权利要求1所述的设备,其中实体关系确定单元是通过分词、词性标注,文法分析等方式,获取实体之间的依赖关系,从而将实体分为多组,每组包含一个主体,多个属性词。
6.根据权利要求1所述的设备,其中辅助信息生成单元是通过一定的规则,包括文法、统计等,生成模板相关的辅助信息,用于优化后面的搜索过程。
7.根据权利要求2所述的设备,其中模板存储单元负责将生成的模板及其相关辅助信息存入搜索引擎。
8.根据权利要求2所述的设备,其中模板搜索单元负责根据输入的文本或关键词,其中文本需进行分词处理,去除停用词之后再获取关键词类别信息,再根据一定规则生成查询条件,从搜索引擎中搜索相关的模板。
9.根据权利要求3所述的设备,根据输入的文本或关键词,其中文本需要进行分词处理,去除停用词之后,在按照一定的关系规则,填入搜索得到的模板中,从而得到生成的文本。由于模板的多样性,生成的文本也具有一定的多样性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910160649.2A CN109902305A (zh) | 2019-03-04 | 2019-03-04 | 基于命名实体识别的模板生成、搜索及文本生成设备与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910160649.2A CN109902305A (zh) | 2019-03-04 | 2019-03-04 | 基于命名实体识别的模板生成、搜索及文本生成设备与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109902305A true CN109902305A (zh) | 2019-06-18 |
Family
ID=66946324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910160649.2A Pending CN109902305A (zh) | 2019-03-04 | 2019-03-04 | 基于命名实体识别的模板生成、搜索及文本生成设备与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902305A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502734A (zh) * | 2019-07-30 | 2019-11-26 | 苏州闻道网络科技股份有限公司 | 一种文本生成方法和装置 |
WO2021073179A1 (zh) * | 2019-10-15 | 2021-04-22 | 华为技术有限公司 | 命名实体的识别方法和设备、以及计算机可读存储介质 |
WO2021128768A1 (zh) * | 2019-12-23 | 2021-07-01 | 苏宁易购集团股份有限公司 | 基于自然语言的体育新闻写作方法、装置及电子设备 |
CN117077649A (zh) * | 2023-10-16 | 2023-11-17 | 之江实验室 | 一种生成医疗文本提取模版方法、装置、介质及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN106970898A (zh) * | 2017-03-31 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 用于生成文章的方法和装置 |
CN107526812A (zh) * | 2017-08-24 | 2017-12-29 | 北京奇艺世纪科技有限公司 | 一种搜索方法、装置及电子设备 |
-
2019
- 2019-03-04 CN CN201910160649.2A patent/CN109902305A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN106970898A (zh) * | 2017-03-31 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 用于生成文章的方法和装置 |
CN107526812A (zh) * | 2017-08-24 | 2017-12-29 | 北京奇艺世纪科技有限公司 | 一种搜索方法、装置及电子设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502734A (zh) * | 2019-07-30 | 2019-11-26 | 苏州闻道网络科技股份有限公司 | 一种文本生成方法和装置 |
WO2021073179A1 (zh) * | 2019-10-15 | 2021-04-22 | 华为技术有限公司 | 命名实体的识别方法和设备、以及计算机可读存储介质 |
WO2021128768A1 (zh) * | 2019-12-23 | 2021-07-01 | 苏宁易购集团股份有限公司 | 基于自然语言的体育新闻写作方法、装置及电子设备 |
CN117077649A (zh) * | 2023-10-16 | 2023-11-17 | 之江实验室 | 一种生成医疗文本提取模版方法、装置、介质及设备 |
CN117077649B (zh) * | 2023-10-16 | 2024-01-09 | 之江实验室 | 一种生成医疗文本提取模版方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902305A (zh) | 基于命名实体识别的模板生成、搜索及文本生成设备与方法 | |
CN108959256B (zh) | 短文本的生成方法、装置、存储介质和终端设备 | |
CN101539907B (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
CN109446313A (zh) | 一种基于自然语言分析的排序系统及方法 | |
CN111651569B (zh) | 一种电力领域的知识库问答方法及系统 | |
Popov | Word sense disambiguation with recurrent neural networks | |
CN111159342A (zh) | 一种基于机器学习的公园文本评论情绪打分方法 | |
CN109766453A (zh) | 一种用户语料语义理解的方法及系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN116108190A (zh) | 一种面向智能运维的电力变压器知识图谱构建方法 | |
Yin et al. | Sentence-BERT and k-means based clustering technology for scientific and technical literature | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
CN107562907A (zh) | 一种智能律师专家系统及案件应答装置 | |
CN114969001A (zh) | 一种数据库元数据字段匹配方法、装置、设备及介质 | |
Li et al. | Chinese frame identification using t-crf model | |
Kunanets et al. | Enhanced LSA Method with Ukraine Language Support. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190618 |
|
RJ01 | Rejection of invention patent application after publication |