CN113378539A - 一种面向标准文档编写的模板推荐方法 - Google Patents
一种面向标准文档编写的模板推荐方法 Download PDFInfo
- Publication number
- CN113378539A CN113378539A CN202110730159.9A CN202110730159A CN113378539A CN 113378539 A CN113378539 A CN 113378539A CN 202110730159 A CN202110730159 A CN 202110730159A CN 113378539 A CN113378539 A CN 113378539A
- Authority
- CN
- China
- Prior art keywords
- title
- standard document
- embedding
- user
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向标准文档编写的模板推荐方法,包括步骤:构建标准文档库,包括标准编号,各层标题以及对应标准内容;对用户输入的标准文档的标题进行字符级的精确匹配,返回匹配文档结果;对标题查询无结果的输入,采用分词算法对用户输入进行分词,匹配包含分词各结果的标准文档标题,返回匹配文档结果;对于分词查询无结果的输入,采用词嵌入模型对查询单词进行特征映射,并根据语义特征向量进行匹配查询最接近的标准文档标题,并返回匹配结果。本发明能够根据标准文档和标准用户的输入特性,有效的进行标准文档编写的模板推荐。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种面向标准文档编写的模板推荐方法。
背景技术
标准数据的存在帮助工业界解决了大量问题,提高了工业产品和服务的性能、效率和创新性。随着各行业标准文档写作的标准不断提出与确立,标准文档的写作呈现规范化、多样性、领域性的特点,给标准文档编写者在标准用语的使用、素材选取、文档格式的规范化带来困难。
基于标准写作用户的需求,有针对性的进行写作模板的推荐能够有效的提高标准文档写作的质量。2019年龙婧(龙婧,徐文峰,罗启星.面向智能写作的混合推荐模型研究[J].电力信息与通信技术,2019,17(4):56-61.)等人提出了一种面向智能写作的混合推荐模型,根据用户信息和输入内容从文档中找出匹配度最高的信息为用户进行推荐。然而,这种方法的结果取决于模板文档的质量,当模板文档缺失或用户信息不足时无法很好的完成推荐。同时,该方法采用人工设计的特征提取文本信息,用户的输入偏向个性化、不满足匹配要求时,基于手工设计特征的方法性能会因此下降。同样的,针对标准写作模板的推荐的两大问题:
(1)标准写作文档模板缺失;
(2)用户的个性化输入使得传统的字符串匹配算法无法精确的匹配最相关的标准模板,获取通用的标准文档模板数据以及提出一种基于文本语义匹配的标准文档模板推荐算法具有重要的意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种面向标准文档编写的模板推荐方法。本发明建立一个标准文档库,包括标准编号、各层标题以及对应标准内容;针对用户输入的标准文档的标题进行字符级的精确匹配,返回匹配文档结果;
对标题查询无结果的输入,采用分词算法对用户输入进行分词,匹配包含分词各结果的标准文档标题,返回匹配文档结果;对于分词查询无结果的输入,采用词嵌入模型对查询单词进行特征映射,并根据语义特征向量进行匹配查询最接近的标准文档标题,并返回匹配结果。本发明能够根据标准文档和标准用户的输入特性,有效的进行标准文档编写的模板推荐。
本发明至少通过如下技术方案之一实现。
一种面向标准文档编写的模板推荐方法,包括以下步骤:
步骤S1、构建标准文档库;
步骤S2、用户通过交互界面输入需要寻找的标题;
步骤S3、对用户输入的字符进行匹配,在标准文档库中进行遍历查找,若存在与用户输入字符完全匹配的标题,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本;若不存在完全匹配的标题,则转步骤S4;
步骤S4、对用户输入的字符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
步骤S5、将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cosine距离大于的设定值,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
优选的,每一个标准文档包括标准编号、标题以及对应标题下的文本内容。
优选的,将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,计算过程如下:
wi=emb(xi)
其中,emb(·)是embedding映射矩阵;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量;n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。
优选的,对标准文档中的标题进行分词、分词后映射到embedding向量、求平均操作,得到标题embedding,对应表示为stitle:
其中,wh是标准文档中的标题第h个单词映射得到的embedding向量;m是标准文档中的标题分词后的总单词数;stitle是标准文档中的标题分词后所有单词embedding的平均值;
若suser和stitle的cosine距离大于设定值,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
优选的,步骤S2中,在python的交互介面用户需要输入需要寻找的模板标题。
优选的,步骤S4的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。
优选的,步骤S5的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。
优选的,所述embedding映射矩阵为预训练的wiki-100中文embedding。
优选的,所述embedding映射矩阵为百度百科语料库预训练的中文embedding。
优选的,中文维基百科语料库预训练的中文embedding。
本发明相较于现有技术,具有以下的有益效果:
1、本发明收集和提出了通用标准文档的写作模板,并根据内容进行了标题和编号的整理。
2、本发明提出了利用分词算法对用户的个性化标准文档的标题输入进行拆分,并根据分词结果进行匹配,提升了匹配的有效性。
3、本发明提出采用词嵌入的方式将用户输入的标准文档标题内容进行语义表示,通过语义向量空间的相似性更准确的进行标准写作模板的匹配。
附图说明
图1是本发明实施例一种面向标准文档编写的模板推荐方法的流程图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
实施例1
如图1所示的一种面向标准文档编写的模板推荐方法,包括以下步骤:
(1)首先获取一批通用的标准文档库,每一个标准文档包括标准编号、标题、对应标题下的文本内容,如:GB_T 23465-2009、评价方法、受试者应预先了解评价项目,在试验过程中应注意体会相关评价项目,并作出主观评价;
(2)运行本项目的代码后,在python的交互介面用户输入其想要寻找的模板标题,如检测方法、术语定义等等。
(3)根据用户输入的模板标题,遍历所有标准文档进行精确匹配,判断用户输入的标题与文档中的标题是否完全一致,若完全一致,则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本;若没有一致的标题,则转步骤S4
(4)对用户输入的模板标题符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
利用python的jieba分词库对用户输入进行分词,如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配,若某标准文档的标题包含了分词后的单词,如标题口罩检测方法包含了分词后的单词检测,则返回口罩检测方法这个标题,以及该标题对应的标准文档编号以及标题下的文本。
(5)对用户输入字符进行分词,采用预训练的wiki-100中文词嵌入模型将分词后的单词映射到对应的embedding(词嵌入)向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
利用python的jieba分词库对输入进行分词,如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量,得到每个单词的embedding向量后再求平均,计算过程如下:
wi=emb(xi)
其中,emb(·)是embedding映射矩阵,采用的是预训练的wiki-100中文embedding;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量。n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。同样地,对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作,得到标题embedding,这里表示为stitle,若suser和stitle的cosine距离大于0.9,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
实施例2
如图1所示的一种面向标准文档编写的模板推荐方法,包括以下步骤:
(1)首先获取一批通用的标准文档库,每一个标准文档包括标准编号、标题、对应标题下的文本内容,如:GB_T 23465-2009、评价方法、受试者应预先了解评价项目,在试验过程中应注意体会相关评价项目,并作出主观评价;
(2)运行本项目的代码后,在python的交互介面用户输入其想要寻找的模板标题,如检测方法、术语定义等等。
(3)根据用户输入的模板标题,遍历所有标准文档进行精确匹配,判断用户输入的标题与文档中的标题是否完全一致,若完全一致,则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本;若没有一致的标题,则转步骤S4
(4)对用户输入的模板标题符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
利用python的THULAC分词库对用户输入进行分词,如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配,若某标准文档的标题包含了分词后的单词,如标题口罩检测方法包含了分词后的单词检测,则返回口罩检测方法这个标题,以及该标题对应的标准文档编号以及标题下的文本。
(5)对用户输入字符进行分词,采用预训练的wiki-100中文词嵌入模型将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
利用python的jieba分词库对输入进行分词,如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量,得到每个单词的embedding向量后再求平均,计算过程如下:
wi=emb(xi)
其中,emb(·)是embedding映射矩阵,采用的是预训练的wiki-100中文embedding;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量,n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。同样地,对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作,得到标题embedding,这里表示为stitle,若suser和stitle的cosine距离大于0.9,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
实施例3
如图1所示的一种面向标准文档编写的模板推荐方法,包括以下步骤:
(1)首先获取一批通用的标准文档库,每一个标准文档包括标准编号、标题、对应标题下的文本内容,如:GB_T 23465-2009、评价方法、受试者应预先了解评价项目,在试验过程中应注意体会相关评价项目,并作出主观评价;
(2)运行本项目的代码后,在python的交互介面用户输入其想要寻找的模板标题,如检测方法、术语定义等等。
(3)根据用户输入的模板标题,遍历所有标准文档进行精确匹配,判断用户输入的标题与文档中的标题是否完全一致,若完全一致,则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本;若没有一致的标题,则转步骤S4
(4)对用户输入的模板标题符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
利用python的pkuseg分词库对用户输入进行分词,如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配,若某标准文档的标题包含了分词后的单词,如标题口罩检测方法包含了分词后的单词检测,则返回口罩检测方法这个标题,以及该标题对应的标准文档编号以及标题下的文本。
(5)对用户输入字符进行分词,采用预训练的wiki-100中文词嵌入模型将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
利用python的jieba分词库对输入进行分词,如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量,得到每个单词的embedding向量后再求平均,计算过程如下:
wi=emb(xi)
其中,emb(·)是embedding映射矩阵,采用的是预训练的wiki-100中文embedding;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量。n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。同样地,对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作,得到标题embedding,这里表示为stitle,若suser和stitle的cosine距离大于0.9,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
实施例4
如图1所示的一种面向标准文档编写的模板推荐方法,包括以下步骤:
(1)首先获取一批通用的标准文档库,每一个标准文档包括标准编号、标题、对应标题下的文本内容,如:GB_T 23465-2009、评价方法、受试者应预先了解评价项目,在试验过程中应注意体会相关评价项目,并作出主观评价;
(2)运行本项目的代码后,在python的交互介面用户输入其想要寻找的模板标题,如检测方法、术语定义等等。
(3)根据用户输入的模板标题,遍历所有标准文档进行精确匹配,判断用户输入的标题与文档中的标题是否完全一致,若完全一致,则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本;若没有一致的标题,则转步骤S4
(4)对用户输入的模板标题符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
利用python的jieba分词库对用户输入进行分词,如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配,若某标准文档的标题包含了分词后的单词,如标题口罩检测方法包含了分词后的单词检测,则返回口罩检测方法这个标题,以及该标题对应的标准文档编号以及标题下的文本。
(5)对用户输入字符进行分词,采用预训练的百度百科中文词嵌入模型将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
利用python的jieba分词库对输入进行分词,如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量,得到每个单词的embedding向量后再求平均,计算过程如下:
wi=emb(xi)
其中,emb(·)是embedding映射矩阵,采用的是预训练的wiki-100中文embedding;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量。n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。同样地,对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作,得到标题embedding,这里表示为stitle,若suser和stitle的cosine距离大于0.9,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种面向标准文档编写的模板推荐方法,其特征在于,包括以下步骤:
步骤S1、构建标准文档库;
步骤S2、用户通过交互界面输入需要寻找的标题;
步骤S3、对用户输入的字符进行匹配,在标准文档库中进行遍历查找,若存在与用户输入字符完全匹配的标题,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本;若不存在完全匹配的标题,则转步骤S4;
步骤S4、对用户输入的字符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
步骤S5、将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cosine距离大于的设定值,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
2.根据权利要求1所述的面向标准文档编写的模板推荐方法,其特征在于,每一个标准文档包括标准编号、标题以及对应标题下的文本内容。
5.根据权利要求4所述的面向标准文档编写的模板推荐方法,其特征在于,步骤S2中,在python的交互介面用户需要输入需要寻找的模板标题。
6.根据权利要求5所述的面向标准文档编写的模板推荐方法,其特征在于,步骤S4的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。
7.根据权利要求6所述的面向标准文档编写的模板推荐方法,其特征在于,步骤S5的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。
8.根据权利要求7所述的面向标准文档编写的模板推荐方法,其特征在于,所述embedding映射矩阵为预训练的wiki-100中文embedding。
9.根据权利要求7所述的面向标准文档编写的模板推荐方法,其特征在于,所述embedding映射矩阵为百度百科语料库预训练的中文embedding。
10.根据权利要求7所述的面向标准文档编写的模板推荐方法,其特征在于,中文维基百科语料库预训练的中文embedding。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110730159.9A CN113378539B (zh) | 2021-06-29 | 2021-06-29 | 一种面向标准文档编写的模板推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110730159.9A CN113378539B (zh) | 2021-06-29 | 2021-06-29 | 一种面向标准文档编写的模板推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378539A true CN113378539A (zh) | 2021-09-10 |
CN113378539B CN113378539B (zh) | 2023-02-14 |
Family
ID=77579938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110730159.9A Active CN113378539B (zh) | 2021-06-29 | 2021-06-29 | 一种面向标准文档编写的模板推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378539B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114153963A (zh) * | 2021-11-30 | 2022-03-08 | 北京达佳互联信息技术有限公司 | 文档推荐方法、装置、计算机设备及介质 |
US11763075B1 (en) | 2022-05-27 | 2023-09-19 | Microsoft Technology Licensing, Llc | Method and system of discovering templates for documents |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216854A (zh) * | 2008-01-15 | 2008-07-09 | 腾讯科技(深圳)有限公司 | 计算机文字输入方法和系统及其词库维护方法和装置 |
CN101408876A (zh) * | 2007-10-09 | 2009-04-15 | 中兴通讯股份有限公司 | 一种电子文档全文检索的方法及系统 |
CN101561815A (zh) * | 2009-05-19 | 2009-10-21 | 华中科技大学 | 分布式密文全文检索系统 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
CN103678576A (zh) * | 2013-12-11 | 2014-03-26 | 华中师范大学 | 基于动态语义分析的全文检索系统 |
CN103714118A (zh) * | 2013-11-22 | 2014-04-09 | 浙江大学 | 图书交叉阅读方法 |
CN104423623A (zh) * | 2013-09-02 | 2015-03-18 | 联想(北京)有限公司 | 一种选词处理方法及电子设备 |
US20150310124A1 (en) * | 2014-04-29 | 2015-10-29 | Wix.Com Ltd. | System and method for the creation and use of visually-diverse high-quality dynamic layouts |
US20180157738A1 (en) * | 2016-12-02 | 2018-06-07 | Encompass Corporation Pty Ltd | Informational retrieval |
US20180267950A1 (en) * | 2017-03-15 | 2018-09-20 | International Business Machines Corporation | Automated document authoring assistant through cognitive computing |
US20190034429A1 (en) * | 2017-07-29 | 2019-01-31 | Splunk Inc. | Translating a natural language request to a domain-specific language request using templates |
US20190244116A1 (en) * | 2018-02-02 | 2019-08-08 | Tata Consultancy Services Limited | Method and system to mine rule intents from documents |
CN110196901A (zh) * | 2019-06-28 | 2019-09-03 | 北京百度网讯科技有限公司 | 对话系统的构建方法、装置、计算机设备和存储介质 |
CN111460083A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN111767720A (zh) * | 2020-07-28 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种标题生成方法、计算机及可读存储介质 |
CN112084307A (zh) * | 2020-09-14 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、服务器及计算机可读存储介质 |
US20200394359A1 (en) * | 2019-06-14 | 2020-12-17 | Mathresources Incorporated | Systems and Methods for Document Publishing |
CN112732864A (zh) * | 2020-12-25 | 2021-04-30 | 中国科学院软件研究所 | 一种基于稠密伪查询向量表示的文档检索方法 |
-
2021
- 2021-06-29 CN CN202110730159.9A patent/CN113378539B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408876A (zh) * | 2007-10-09 | 2009-04-15 | 中兴通讯股份有限公司 | 一种电子文档全文检索的方法及系统 |
CN101216854A (zh) * | 2008-01-15 | 2008-07-09 | 腾讯科技(深圳)有限公司 | 计算机文字输入方法和系统及其词库维护方法和装置 |
CN101561815A (zh) * | 2009-05-19 | 2009-10-21 | 华中科技大学 | 分布式密文全文检索系统 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
CN104423623A (zh) * | 2013-09-02 | 2015-03-18 | 联想(北京)有限公司 | 一种选词处理方法及电子设备 |
CN103714118A (zh) * | 2013-11-22 | 2014-04-09 | 浙江大学 | 图书交叉阅读方法 |
CN103678576A (zh) * | 2013-12-11 | 2014-03-26 | 华中师范大学 | 基于动态语义分析的全文检索系统 |
US20150310124A1 (en) * | 2014-04-29 | 2015-10-29 | Wix.Com Ltd. | System and method for the creation and use of visually-diverse high-quality dynamic layouts |
US20180157738A1 (en) * | 2016-12-02 | 2018-06-07 | Encompass Corporation Pty Ltd | Informational retrieval |
US20180267950A1 (en) * | 2017-03-15 | 2018-09-20 | International Business Machines Corporation | Automated document authoring assistant through cognitive computing |
US20190034429A1 (en) * | 2017-07-29 | 2019-01-31 | Splunk Inc. | Translating a natural language request to a domain-specific language request using templates |
US20190244116A1 (en) * | 2018-02-02 | 2019-08-08 | Tata Consultancy Services Limited | Method and system to mine rule intents from documents |
US20200394359A1 (en) * | 2019-06-14 | 2020-12-17 | Mathresources Incorporated | Systems and Methods for Document Publishing |
CN110196901A (zh) * | 2019-06-28 | 2019-09-03 | 北京百度网讯科技有限公司 | 对话系统的构建方法、装置、计算机设备和存储介质 |
CN111460083A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 文档标题树的构建方法、装置、电子设备及存储介质 |
CN111767720A (zh) * | 2020-07-28 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种标题生成方法、计算机及可读存储介质 |
CN112084307A (zh) * | 2020-09-14 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、服务器及计算机可读存储介质 |
CN112732864A (zh) * | 2020-12-25 | 2021-04-30 | 中国科学院软件研究所 | 一种基于稠密伪查询向量表示的文档检索方法 |
Non-Patent Citations (1)
Title |
---|
杜卿 等: "基于社交关系的问答系统及最佳回答者推荐技术", 《华南理工大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114153963A (zh) * | 2021-11-30 | 2022-03-08 | 北京达佳互联信息技术有限公司 | 文档推荐方法、装置、计算机设备及介质 |
US11763075B1 (en) | 2022-05-27 | 2023-09-19 | Microsoft Technology Licensing, Llc | Method and system of discovering templates for documents |
WO2023229737A1 (en) * | 2022-05-27 | 2023-11-30 | Microsoft Technology Licensing, Llc | Method and system of discovering templates for documents |
Also Published As
Publication number | Publication date |
---|---|
CN113378539B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378539B (zh) | 一种面向标准文档编写的模板推荐方法 | |
CN110119510B (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN111783461A (zh) | 一种基于句法依存关系的命名实体识别方法 | |
CN111008530A (zh) | 一种基于文档分词的复杂语义识别方法 | |
CN112417891A (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN110750646A (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN111563167B (zh) | 文本分类系统及方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN114118053A (zh) | 一种合同信息提取方法及装置 | |
CN114912453A (zh) | 基于增强序列特征的中文法律文书命名实体识别方法 | |
CN112231537A (zh) | 基于深度学习和网络爬虫的智能阅读系统 | |
CN115481635A (zh) | 一种地址要素解析方法和系统 | |
CN114861082A (zh) | 一种基于多维度语义表示的攻击性评论检测方法 | |
Slavin et al. | Analyzing the content of business documents recognized with a large number of errors using modified Levenshtein distance | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
Wang et al. | Chinese-braille translation based on braille corpus | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
CN117253239A (zh) | 融合版面信息的端到端文档图像翻译方法及装置 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
Amin et al. | Kurdish Language Sentiment Analysis: Problems and Challenges | |
CN112990388B (zh) | 基于概念词的文本聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |