CN113378539B - 一种面向标准文档编写的模板推荐方法 - Google Patents

一种面向标准文档编写的模板推荐方法 Download PDF

Info

Publication number
CN113378539B
CN113378539B CN202110730159.9A CN202110730159A CN113378539B CN 113378539 B CN113378539 B CN 113378539B CN 202110730159 A CN202110730159 A CN 202110730159A CN 113378539 B CN113378539 B CN 113378539B
Authority
CN
China
Prior art keywords
title
standard document
user
embedding
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110730159.9A
Other languages
English (en)
Other versions
CN113378539A (zh
Inventor
蔡毅
彭淇
郑昌萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110730159.9A priority Critical patent/CN113378539B/zh
Publication of CN113378539A publication Critical patent/CN113378539A/zh
Application granted granted Critical
Publication of CN113378539B publication Critical patent/CN113378539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种面向标准文档编写的模板推荐方法,包括步骤:构建标准文档库,包括标准编号,各层标题以及对应标准内容;对用户输入的标准文档的标题进行字符级的精确匹配,返回匹配文档结果;对标题查询无结果的输入,采用分词算法对用户输入进行分词,匹配包含分词各结果的标准文档标题,返回匹配文档结果;对于分词查询无结果的输入,采用词嵌入模型对查询单词进行特征映射,并根据语义特征向量进行匹配查询最接近的标准文档标题,并返回匹配结果。本发明能够根据标准文档和标准用户的输入特性,有效的进行标准文档编写的模板推荐。

Description

一种面向标准文档编写的模板推荐方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种面向标准文档编写的模板推荐方法。
背景技术
标准数据的存在帮助工业界解决了大量问题,提高了工业产品和服务的性能、效率和创新性。随着各行业标准文档写作的标准不断提出与确立,标准文档的写作呈现规范化、多样性、领域性的特点,给标准文档编写者在标准用语的使用、素材选取、文档格式的规范化带来困难。
基于标准写作用户的需求,有针对性的进行写作模板的推荐能够有效的提高标准文档写作的质量。2019年龙婧(龙婧,徐文峰,罗启星.面向智能写作的混合推荐模型研究[J].电力信息与通信技术,2019,17(4):56-61.)等人提出了一种面向智能写作的混合推荐模型,根据用户信息和输入内容从文档中找出匹配度最高的信息为用户进行推荐。然而,这种方法的结果取决于模板文档的质量,当模板文档缺失或用户信息不足时无法很好的完成推荐。同时,该方法采用人工设计的特征提取文本信息,用户的输入偏向个性化、不满足匹配要求时,基于手工设计特征的方法性能会因此下降。同样的,针对标准写作模板的推荐的两大问题:
(1)标准写作文档模板缺失;
(2)用户的个性化输入使得传统的字符串匹配算法无法精确的匹配最相关的标准模板,获取通用的标准文档模板数据以及提出一种基于文本语义匹配的标准文档模板推荐算法具有重要的意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种面向标准文档编写的模板推荐方法。本发明建立一个标准文档库,包括标准编号、各层标题以及对应标准内容;针对用户输入的标准文档的标题进行字符级的精确匹配,返回匹配文档结果;
对标题查询无结果的输入,采用分词算法对用户输入进行分词,匹配包含分词各结果的标准文档标题,返回匹配文档结果;对于分词查询无结果的输入,采用词嵌入模型对查询单词进行特征映射,并根据语义特征向量进行匹配查询最接近的标准文档标题,并返回匹配结果。本发明能够根据标准文档和标准用户的输入特性,有效的进行标准文档编写的模板推荐。
本发明至少通过如下技术方案之一实现。
一种面向标准文档编写的模板推荐方法,包括以下步骤:
步骤S1、构建标准文档库;
步骤S2、用户通过交互界面输入需要寻找的标题;
步骤S3、对用户输入的字符进行匹配,在标准文档库中进行遍历查找,若存在与用户输入字符完全匹配的标题,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本;若不存在完全匹配的标题,则转步骤S4;
步骤S4、对用户输入的字符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
步骤S5、将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cosine距离大于的设定值,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
优选的,每一个标准文档包括标准编号、标题以及对应标题下的文本内容。
优选的,将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,计算过程如下:
wi=emb(xi)
Figure BDA0003138990450000031
其中,emb(·)是embedding映射矩阵;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量;n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。
优选的,对标准文档中的标题进行分词、分词后映射到embedding向量、求平均操作,得到标题embedding,对应表示为stitle
Figure BDA0003138990450000032
其中,wh是标准文档中的标题第h个单词映射得到的embedding向量;m是标准文档中的标题分词后的总单词数;stitle是标准文档中的标题分词后所有单词embedding的平均值;
若suser和stitle的cosine距离大于设定值,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
优选的,步骤S2中,在python的交互介面用户需要输入需要寻找的模板标题。
优选的,步骤S4的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。
优选的,步骤S5的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。
优选的,所述embedding映射矩阵为预训练的wiki-100中文embedding。
优选的,所述embedding映射矩阵为百度百科语料库预训练的中文embedding。
优选的,中文维基百科语料库预训练的中文embedding。
本发明相较于现有技术,具有以下的有益效果:
1、本发明收集和提出了通用标准文档的写作模板,并根据内容进行了标题和编号的整理。
2、本发明提出了利用分词算法对用户的个性化标准文档的标题输入进行拆分,并根据分词结果进行匹配,提升了匹配的有效性。
3、本发明提出采用词嵌入的方式将用户输入的标准文档标题内容进行语义表示,通过语义向量空间的相似性更准确的进行标准写作模板的匹配。
附图说明
图1是本发明实施例一种面向标准文档编写的模板推荐方法的流程图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
实施例1
如图1所示的一种面向标准文档编写的模板推荐方法,包括以下步骤:
(1)首先获取一批通用的标准文档库,每一个标准文档包括标准编号、标题、对应标题下的文本内容,如:GB_T 23465-2009、评价方法、受试者应预先了解评价项目,在试验过程中应注意体会相关评价项目,并作出主观评价;
(2)运行本项目的代码后,在python的交互介面用户输入其想要寻找的模板标题,如检测方法、术语定义等等。
(3)根据用户输入的模板标题,遍历所有标准文档进行精确匹配,判断用户输入的标题与文档中的标题是否完全一致,若完全一致,则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本;若没有一致的标题,则转步骤S4
(4)对用户输入的模板标题符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
利用python的jieba分词库对用户输入进行分词,如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配,若某标准文档的标题包含了分词后的单词,如标题口罩检测方法包含了分词后的单词检测,则返回口罩检测方法这个标题,以及该标题对应的标准文档编号以及标题下的文本。
(5)对用户输入字符进行分词,采用预训练的wiki-100中文词嵌入模型将分词后的单词映射到对应的embedding(词嵌入)向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
利用python的jieba分词库对输入进行分词,如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量,得到每个单词的embedding向量后再求平均,计算过程如下:
wi=emb(xi)
Figure BDA0003138990450000061
其中,emb(·)是embedding映射矩阵,采用的是预训练的wiki-100中文embedding;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量。n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。同样地,对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作,得到标题embedding,这里表示为stitle,若suser和stitle的cosine距离大于0.9,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
实施例2
如图1所示的一种面向标准文档编写的模板推荐方法,包括以下步骤:
(1)首先获取一批通用的标准文档库,每一个标准文档包括标准编号、标题、对应标题下的文本内容,如:GB_T 23465-2009、评价方法、受试者应预先了解评价项目,在试验过程中应注意体会相关评价项目,并作出主观评价;
(2)运行本项目的代码后,在python的交互介面用户输入其想要寻找的模板标题,如检测方法、术语定义等等。
(3)根据用户输入的模板标题,遍历所有标准文档进行精确匹配,判断用户输入的标题与文档中的标题是否完全一致,若完全一致,则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本;若没有一致的标题,则转步骤S4
(4)对用户输入的模板标题符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
利用python的THULAC分词库对用户输入进行分词,如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配,若某标准文档的标题包含了分词后的单词,如标题口罩检测方法包含了分词后的单词检测,则返回口罩检测方法这个标题,以及该标题对应的标准文档编号以及标题下的文本。
(5)对用户输入字符进行分词,采用预训练的wiki-100中文词嵌入模型将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
利用python的jieba分词库对输入进行分词,如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量,得到每个单词的embedding向量后再求平均,计算过程如下:
wi=emb(xi)
Figure BDA0003138990450000081
其中,emb(·)是embedding映射矩阵,采用的是预训练的wiki-100中文embedding;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量,n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。同样地,对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作,得到标题embedding,这里表示为stitle,若suser和stitle的cosine距离大于0.9,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
实施例3
如图1所示的一种面向标准文档编写的模板推荐方法,包括以下步骤:
(1)首先获取一批通用的标准文档库,每一个标准文档包括标准编号、标题、对应标题下的文本内容,如:GB_T 23465-2009、评价方法、受试者应预先了解评价项目,在试验过程中应注意体会相关评价项目,并作出主观评价;
(2)运行本项目的代码后,在python的交互介面用户输入其想要寻找的模板标题,如检测方法、术语定义等等。
(3)根据用户输入的模板标题,遍历所有标准文档进行精确匹配,判断用户输入的标题与文档中的标题是否完全一致,若完全一致,则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本;若没有一致的标题,则转步骤S4
(4)对用户输入的模板标题符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
利用python的pkuseg分词库对用户输入进行分词,如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配,若某标准文档的标题包含了分词后的单词,如标题口罩检测方法包含了分词后的单词检测,则返回口罩检测方法这个标题,以及该标题对应的标准文档编号以及标题下的文本。
(5)对用户输入字符进行分词,采用预训练的wiki-100中文词嵌入模型将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
利用python的jieba分词库对输入进行分词,如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量,得到每个单词的embedding向量后再求平均,计算过程如下:
wi=emb(xi)
Figure BDA0003138990450000091
其中,emb(·)是embedding映射矩阵,采用的是预训练的wiki-100中文embedding;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量。n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。同样地,对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作,得到标题embedding,这里表示为stitle,若suser和stitle的cosine距离大于0.9,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
实施例4
如图1所示的一种面向标准文档编写的模板推荐方法,包括以下步骤:
(1)首先获取一批通用的标准文档库,每一个标准文档包括标准编号、标题、对应标题下的文本内容,如:GB_T 23465-2009、评价方法、受试者应预先了解评价项目,在试验过程中应注意体会相关评价项目,并作出主观评价;
(2)运行本项目的代码后,在python的交互介面用户输入其想要寻找的模板标题,如检测方法、术语定义等等。
(3)根据用户输入的模板标题,遍历所有标准文档进行精确匹配,判断用户输入的标题与文档中的标题是否完全一致,若完全一致,则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本;若没有一致的标题,则转步骤S4
(4)对用户输入的模板标题符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
利用python的jieba分词库对用户输入进行分词,如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配,若某标准文档的标题包含了分词后的单词,如标题口罩检测方法包含了分词后的单词检测,则返回口罩检测方法这个标题,以及该标题对应的标准文档编号以及标题下的文本。
(5)对用户输入字符进行分词,采用预训练的百度百科中文词嵌入模型将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。
利用python的jieba分词库对输入进行分词,如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量,得到每个单词的embedding向量后再求平均,计算过程如下:
wi=emb(xi)
Figure BDA0003138990450000111
其中,emb(·)是embedding映射矩阵,采用的是预训练的wiki-100中文embedding;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量。n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值。同样地,对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作,得到标题embedding,这里表示为stitle,若suser和stitle的cosine距离大于0.9,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种面向标准文档编写的模板推荐方法,其特征在于,包括以下步骤:
步骤S1、构建标准文档库;
步骤S2、用户通过交互界面输入需要寻找的标题;
步骤S3、对用户输入的字符进行匹配,在标准文档库中进行遍历查找,若存在与用户输入字符完全匹配的标题,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本;若不存在完全匹配的标题,则转步骤S4;
步骤S4、对用户输入的字符进行分词,分词后再进行遍历匹配,若某标准文档中的标题包含分词后的单词,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本,若不存在包含分词后的单词,则转步骤S5;
步骤S5、将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均,若用户输入字符的embedding和标题对应的embedding的cosine距离大于的设定值,则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本;
将分词后的单词映射到对应的embedding向量,再对所有分词单词的embedding向量进行求平均,计算过程如下:
wi=emb(xi)
Figure FDA0003781289130000011
其中,emb(·)是embedding映射矩阵;xi是用户输入的文本分词后对应的第i个单词;wi是第i个单词映射得到的embedding向量;n是用户输入文本分词后的总单词数;suser是用户输入分词后所有单词embedding的平均值;
对标准文档中的标题进行分词、分词后映射到embedding向量、求平均操作,得到标题embedding,对应表示为stitle
Figure FDA0003781289130000021
其中,wh是标准文档中的标题第h个单词映射得到的embedding向量;m是标准文档中的标题分词后的总单词数;stitle是标准文档中的标题分词后所有单词embedding的平均值;
若suser和stitle的cosine距离大于设定值,则返回对应标题、该标题对应的标准文档编号以及标题下的文本。
2.根据权利要求1所述的面向标准文档编写的模板推荐方法,其特征在于,每一个标准文档包括标准编号、标题以及对应标题下的文本内容。
3.根据权利要求2所述的面向标准文档编写的模板推荐方法,其特征在于,步骤S2中,在python的交互介面用户需要输入需要寻找的模板标题。
4.根据权利要求3所述的面向标准文档编写的模板推荐方法,其特征在于,步骤S4的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。
5.根据权利要求4所述的面向标准文档编写的模板推荐方法,其特征在于,步骤S5的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。
6.根据权利要求5所述的面向标准文档编写的模板推荐方法,其特征在于,所述embedding映射矩阵为预训练的wiki-100中文embedding。
7.根据权利要求6所述的面向标准文档编写的模板推荐方法,其特征在于,所述embedding映射矩阵为百度百科语料库预训练的中文embedding。
8.根据权利要求7所述的面向标准文档编写的模板推荐方法,其特征在于,中文维基百科语料库预训练的中文embedding。
CN202110730159.9A 2021-06-29 2021-06-29 一种面向标准文档编写的模板推荐方法 Active CN113378539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110730159.9A CN113378539B (zh) 2021-06-29 2021-06-29 一种面向标准文档编写的模板推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110730159.9A CN113378539B (zh) 2021-06-29 2021-06-29 一种面向标准文档编写的模板推荐方法

Publications (2)

Publication Number Publication Date
CN113378539A CN113378539A (zh) 2021-09-10
CN113378539B true CN113378539B (zh) 2023-02-14

Family

ID=77579938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110730159.9A Active CN113378539B (zh) 2021-06-29 2021-06-29 一种面向标准文档编写的模板推荐方法

Country Status (1)

Country Link
CN (1) CN113378539B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153963A (zh) * 2021-11-30 2022-03-08 北京达佳互联信息技术有限公司 文档推荐方法、装置、计算机设备及介质
US11763075B1 (en) 2022-05-27 2023-09-19 Microsoft Technology Licensing, Llc Method and system of discovering templates for documents

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN111767720A (zh) * 2020-07-28 2020-10-13 腾讯科技(深圳)有限公司 一种标题生成方法、计算机及可读存储介质
CN112084307A (zh) * 2020-09-14 2020-12-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112732864A (zh) * 2020-12-25 2021-04-30 中国科学院软件研究所 一种基于稠密伪查询向量表示的文档检索方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216854B (zh) * 2008-01-15 2010-07-14 腾讯科技(深圳)有限公司 计算机文字输入方法和系统及其词库维护方法和装置
CN101561815B (zh) * 2009-05-19 2010-10-13 华中科技大学 分布式密文全文检索系统
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和系统
CN104423623B (zh) * 2013-09-02 2018-10-12 联想(北京)有限公司 一种选词处理方法及电子设备
CN103714118B (zh) * 2013-11-22 2017-02-08 浙江大学 图书交叉阅读方法
CN103678576B (zh) * 2013-12-11 2016-08-17 华中师范大学 基于动态语义分析的全文检索系统
EP3674963A1 (en) * 2014-04-29 2020-07-01 Wix.com Ltd. System and method for the creation and use of visually-diverse high-quality dynamic layouts cross-reference to related applications
AU2017265144B2 (en) * 2016-12-02 2022-04-14 Encompass Corporation Pty Ltd Information retrieval
US10579725B2 (en) * 2017-03-15 2020-03-03 International Business Machines Corporation Automated document authoring assistant through cognitive computing
US10885026B2 (en) * 2017-07-29 2021-01-05 Splunk Inc. Translating a natural language request to a domain-specific language request using templates
US10885442B2 (en) * 2018-02-02 2021-01-05 Tata Consultancy Services Limited Method and system to mine rule intents from documents
CA3046608A1 (en) * 2019-06-14 2020-12-14 Mathresources Incorporated Systems and methods for document publishing
CN110196901B (zh) * 2019-06-28 2022-02-11 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408876A (zh) * 2007-10-09 2009-04-15 中兴通讯股份有限公司 一种电子文档全文检索的方法及系统
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN111767720A (zh) * 2020-07-28 2020-10-13 腾讯科技(深圳)有限公司 一种标题生成方法、计算机及可读存储介质
CN112084307A (zh) * 2020-09-14 2020-12-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、服务器及计算机可读存储介质
CN112732864A (zh) * 2020-12-25 2021-04-30 中国科学院软件研究所 一种基于稠密伪查询向量表示的文档检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于社交关系的问答系统及最佳回答者推荐技术;杜卿 等;《华南理工大学学报(自然科学版)》;20150131;第43卷(第1期);第132页-第139页 *

Also Published As

Publication number Publication date
CN113378539A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
Huang et al. A system for understanding imaged infographics and its applications
CN113378539B (zh) 一种面向标准文档编写的模板推荐方法
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111930929A (zh) 一种文章标题生成方法、装置及计算设备
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
WO2021100902A1 (ko) 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN111783461A (zh) 一种基于句法依存关系的命名实体识别方法
CN112560484A (zh) 一种改进bert训练模型及一种命名实体识别方法、系统
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN111563167B (zh) 文本分类系统及方法
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
CN114118053A (zh) 一种合同信息提取方法及装置
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
Prakash et al. Mining of bilingual Indian Web documents
CN111274354B (zh) 一种裁判文书结构化方法及装置
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN112463966B (zh) 虚假评论检测模型训练方法、检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant