CN116010560A

CN116010560A - 一种国际技术转移数据服务系统

Info

Publication number: CN116010560A
Application number: CN202310307610.5A
Authority: CN
Inventors: 赵中元; 刘晓辉; 张尧
Original assignee: Qingdao Aston Engineering Technology Transfer Co ltd
Current assignee: Qingdao Aston Engineering Technology Transfer Co ltd
Priority date: 2023-03-28
Filing date: 2023-03-28
Publication date: 2023-04-25
Anticipated expiration: 2043-03-28
Also published as: CN116010560B

Abstract

本发明涉及数据处理技术领域，提出了一种国际技术转移数据服务系统，包括：获取用户的历史搜素记录，构建近义词模型；根据用户输入的检索关键词获取搜索中心词，获取内容词汇，得到内容词汇和检索关键词的匹配程度；得到每个第一搜索句和所有第二搜索句的相近程度；根据第一搜索句和所有第二搜索句的相近程度以及所有第一搜索句的内容占比得到所有第一搜索句调整后的内容量；根据所有第一搜索句的内容量得到ROUGE评价指标，根据ROUGE评价指标完成对用户搜索文档的排名，完成用户服务。本发明能够根据与搜索内容的实际相关联特征进行输出排序，增加了推送的准确率，提高了用户的检索效率。

Description

一种国际技术转移数据服务系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种国际技术转移数据服务系统。

背景技术

随着技术转移平台发展的越来越成熟，用户数量的增加，以及其中存储的技术方向的增加，信息数量的丰富，因此无疑导致了用户在检索时，出现的可供选择或参考的词条数目过多，无法快速找到所需要的技术数据，因此为了增加用户的使用体验以及检索效率，较为智能的检索方式是必不可缺的。

现有的检索方式，大多是基于关键词以及所检索的关键词内容在对应信息中出现的频率等浅层逻辑进行对应的推荐顺序，这样的判断只能将连续的词语检测出来，并没有结合词性特征以及语句组成方式来对摘要中存在搜索内容的相关内容量进行分析来对检索结果进行优化，往往并不能满足用户的检索需求。

发明内容

本发明提供一种国际技术转移数据服务系统，以解决现有的检索难度大，检索结果不精确的问题，所采用的技术方案具体如下：

本发明一个实施例提供了一种国际技术转移数据服务系统，该系统包括以下模块：

近义词模型获取模块，获取用户的历史搜素记录，对于历史搜索记录中的词汇分类得到近义词，构建近义词模型；

匹配程度获取模块，获取用户输入的检索关键词，根据检索关键词获取搜索中心词，获取内容词汇，通过近义词模型判断每一个内容词汇与每一个搜索中心词在近义词模型中的距离，根据内容词汇与搜索中心词的近义词相近程度和匹配长度得到内容词汇和检索关键词的匹配程度；

内容占比和相近程度获取模块，获取第一搜索句和第二搜索句，根据每个第一搜索句的描述词数量以及句子的长度获得每个第一搜索句的内容占比；根据词性确定词汇是否为主体部分，对不同词性给予不同的词性编号，标题和摘要中的每一个句子根据词性编号得到词性序列，根据每一个句子的主体部分得到局部词性组成，将局部词性组成转换为词向量模型，根据第一搜索句的每个局部词性组成与检索关键词的相近程度、每个第一搜索句的每个局部词性组成与第二搜索句的局部词性组成对比得到的相近程度、第一搜索句的局部词性组成与第二搜索句的局部词性组成在词向量空间中向量的余弦相似度得到每个第一搜索句和所有第二搜索句的相近程度；

内容量获取模块，根据第一搜索句和所有第二搜索句的相近程度以及所有第一搜索句的内容占比得到所有第一搜索句调整后的内容量；

用户服务模块，根据所有第一搜索句调整后的内容量得到ROUGE评价指标，根据ROUGE评价指标完成对用户搜索文档的排名，完成用户服务。

优选的，所述搜索中心词为检索关键词和检索关键词的所有分词的统称。

优选的，所述获取内容词汇，通过近义词模型判断每一个内容词汇与每一个搜索中心词在近义词模型中的距离的方法为：

内容词汇为标题和摘要中的每一个词汇，计算内容词汇与搜索中心词的余弦相似度，在近义词模型中，计算近义词模型中所有词汇与搜索中心词的余弦相似度，将所有余弦相似度从大到小排序，得到每个词汇在近义词模型中的序号，找到内容词汇和搜索中心词计算得到的余弦相似度在近义词模型中的序号，该序号为内容词汇和搜索中心词的距离。

优选的，所述根据内容词汇与搜索中心词的近义词相近程度和匹配长度得到内容词汇和检索关键词的匹配程度的方法为：

将每一个内容词汇与检索关键词进行匹配，若内容词汇与搜索中心词在近义词模型被匹配，确定此时的内容词汇的长度，令内容词汇的长度与检索关键词的长度的比值与内容词汇和搜索中心词在近义词模型中的距离倒数的乘积作为内容词汇和检索关键词的匹配程度。

优选的，所述获取第一搜索句和第二搜索句的获取方法为：

将标题和摘要中包含搜索中心词的随机一个句子作为第一搜索句，将标题和摘要中包含搜索中心词的句子中除了第一搜索句以外的句子作为第二搜索句。

优选的，所述根据每个第一搜索句的描述词数量以及句子的长度获得每个第一搜索句的内容占比的计算方法为：

，

式中，表示摘要和标题中的第个句子中出现的描述词数量，表示摘要和标题中的第个句子的长度，表示摘要和标题中包含搜索中心词的第个句子中出现的描述词数量，表示摘要和标题中包含搜索中心词的第个句子的长度，则表示摘要的总字数，表示摘要和标题中包含搜索中心词的第个句子的内容占比。

优选的，所述局部词性组成为主体部分的词汇，和主体部分词汇的前一个词汇和后一个词汇。

优选的，所述根据第一搜索句的每个局部词性组成与检索关键词的相近程度、每个第一搜索句的每个局部词性组成与第二搜索句的局部词性组成对比得到的相近程度、第一搜索句的局部词性组成与第二搜索句的局部词性组成在词向量空间中向量的余弦相似度得到每个第一搜索句和所有第二搜索句的相近程度的方法为：

，

式中，表示任意句子中第t个局部词性组成与另一个句子中局部词性组成对应的主体部分的相近程度，表示第个第一搜索句第t个局部词性组成与检索关键词的相近程度，表示第个第一搜索句的第个局部词性组成与第个第二搜索句的局部词性组成对比得到的相近程度，表示第个第一搜索句和所有第二搜索句的相近程度，表示第个第一搜索句第t个局部词性组成与第个第二搜索句的局部词性组成在词向量空间中向量的余弦相似度。

本发明的有益效果是：本发明的通过对关键词在文章中结合词性的相近特征，以及实际搜索内容关键词在语句中与其余主语的对应关系，来对存在干扰的语句进行识别并给予不一样的程度值，最终获得更加准确的相关内容量的判定，常规的ROUGE算法也是通过对其中对应词汇的相近程度以及频次进行评价指标的计算，而本发明创新性的将这一评价指标用于搜索内容与摘要进行相关程度的判定，不仅结合场景特征对ROUGE评价指标进行优化，同样还对搜索内容中的结果能够根据其中与搜索内容的实际相关联特征进行输出排序，增加了推送的准确率，提高了用户的检索效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例所提供的一种国际技术转移数据服务系统的流程示意图；

图2为近义词模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在技术转移平台上，存在数量极为庞大的文档，并且文档的数量每天都在增多，用户想要搜索合适的文档需要极大的算力，因此本发明针对每个文档的标题和摘要部分进行检索，这么做的目的是为了减少计算量，加快检索的速度。

请参阅图1，其示出了本发明一个实施例提供的一种国际技术转移数据服务系统流程图，该系统包括以下模块：

近义词模型获取模块，获取用户在技术转移平台上一周内的历史搜索记录，根据jieba分词获取所有历史搜索记录的分词，获取所有历史搜索记录的分词所处的技术领域，在历史搜索记录的分词所处的技术领域内，使用word2vec模型获得技术领域内所有词汇的词向量，将任意两个词向量的余弦相似度大于B的词汇称为近义词，在本实施例中B为0.65，基于此构建近义词模型，在每个词汇的近义词模型中，记该词汇为中心词，与中心词的余弦相似度越大，在近义词模型中离中心词的距离越近。

将用户当前的搜索记录记为检索关键词。

进一步的，在历史搜索记录的分词的技术领域类型中，准备好语义词汇表，同时根据word2vec算法模型得到检索关键词以及其分词的近义词，并通过语义词汇表根据近义词的相近程度获得节点部分，在此举例说明：如“挂车”“半挂”“大挂”等为工程领域中的近义词，近义词模型如图2所示，在近义词模型中，与中心词余弦相似度最大的词汇距离中心词的距离为1，与中心词余弦相似度第二大的词汇距离中心词的距离为2，若两个词汇与中心词的余弦相似度都一样且最大，那么两个词汇距离中心词的距离都为1，依次类推，得到近义词模型中所有词距离中心词的距离。

匹配程度获取模块，首先，根据“现代汉语语义词典”（SKCC）数据库对检索关键词以及文档标题，摘要部分进行词性识别。

进一步的，通过SKCC数据库，对摘要部分识别逗号、句号，将其进行分句。分句方式以每一个句号之间为一大句，逗号之间为一小句。

用户在搜索栏输入的检索关键词有时候并非只是简单的名词，也会是动名词的组合，此时若一句话之间出现了整个检索关键词，那么就认为该句子与检索关键词的匹配度较高，若检索关键词在相连的句子中被分为了若干部分，因此根据每个部分的词义以及每个部分前后词语的词义进行二次判断。

在此举例说明：若用户在搜索栏输入检索关键词 “挂车角度识别”，检索关键词本身就为一个词汇整体，当存在某一句话例如“挂车角度识别方法…”，其中完整的出现了搜索的关键词，这一匹配情况一定是较高的，若出现“挂车大雾情况下，其转弯时角度的识别是不准确的”，其中关键词在两个句子中被分为了三个部分，其中虽然没有完整的匹配上，但是根据句意，其中实际匹配程度应该是很高的。但其中会出现在“角度”或“识别”前方出现了与“挂车”相同词性的词，从而使得“角度”或“识别”根据词性以及句意上，其并不属于挂车的后缀，因此需要对上述情况进行处理。

由于检索关键词包含多个词汇，在后续计算时需要对这些词汇都进行计算，因此令检索关键词和检索关键词的所有分词称为搜索中心词。

进一步的，对于文档的标题和摘要中的每一个词汇进行近义词识别后，与用户输入的搜索中心词进行匹配，标题和摘要中的每一个词汇记为内容词汇，根据每个内容词汇与搜索中心词的近义词相近程度和匹配长度得到内容词汇与检索关键词的匹配程度，公式如下：

,

式中，表示摘要和标题中与搜索中心词匹配的内容词汇的长度，其中若内容词汇为汉字则长度为汉字的数量，若为英文则长度为英文单词的数量，表示检索关键词的长度，表示摘要和标题中与搜索中心词匹配的内容词汇在近义词模型中的距离。当两个词的内容一样时，b为0，因此在分母+1，防止公式无意义，z表示内容词汇和检索关键词的匹配程度，当词汇与搜索中心词为近义词时，说明词汇与搜索中心词匹配。

值得注意的是，在摘要和标题中的内容词汇与检索关键词进行匹配时，检索关键词中的每个分词也会和内容词汇进行匹配，若搜索中心词存在多个词汇与内容词汇匹配，那么计算得到的最大的匹配程度作为内容词汇与检索关键词的匹配程度。

在不考虑语义，仅考虑词汇的情况下，当其中的值越高，表示摘要或题目中的这一词汇与检索关键词占比越多，表示该词汇与检索关键词的匹配程度越高。而当摘要或题目中的词汇在近义词模型中的距离越近，表示词汇的实际含义越匹配，其中b越大，在近义词模型中，意思相差越大，因此距离越大越不匹配，距离越小越匹配。

内容占比和相近程度获取模块，仅仅通过摘要和标题中出现的和检索关键词是否相近以及相近的多少，是无法说明这一结果是符合用户需要的，可能用户搜索的内容在这一文章中的所占成分是很少的，例如检索关键词“挂车角度识别”这一关键词，在摘要和标题中“挂车”在其中可能只是一个场景问题，与后续的“角度识别”完全不相关。因此需要对摘要和标题中出现的所有能够作为主体内容的词汇在摘要和标题中的占比进行判定。

因此通过jieba分词算法，将得到的分词利用现有的词性识别网络进行词性分析，分析每一个语句中的主体成分，这里需要注意的是，形容词往往是不需要考虑的，形容词往往是程度上的描述，而名词，介词，代词，动词则往往在一句话中是表示了主体部分。例如“复杂的环境对挂车的影响较大”。这里的主体部分则是“环境对挂车的影响”。其中每一句中都会出现不止一个词汇，其中包括了事物，也包括了场景等。因此不同的词汇之间的组合所表示出的含义则完全不相同，在本实施例中，将除了主体部分的词汇都记为描述词。

获取摘要和题目中每一句话出现的词汇，令检索关键词和检索关键词的所有分词称为搜索中心词，计算摘要和题目中包含搜索中心词的句子在题目和摘要中的内容占比：

,

式中，表示摘要和标题中的第个句子中出现的描述词数量，表示摘要和标题中的第个句子的长度，若句子为中文句子，那么句子长度为汉字的数量，如果句子为英文句子，那么句子的长度为英文单词的数量，表示摘要和标题中包含搜索中心词的第个句子中出现的描述词数量，表示摘要和标题中包含搜索中心词的第个句子的长度，则表示摘要的总字数，表示摘要和标题中包含搜索中心词的第个句子的内容占比。其中描述词包括如形容词，介词等。则表示了第个句子的长度在摘要中的占比。则表示了包含搜索内容的第个句子的长度在摘要中的占比。此时表示包含搜索内容的第个句子中的内容量。表示了整个摘要的内容量。

当一个句子中，出现的描述词越多，那么认为在这一句中的描述越多越复杂，同时这一句子的文字数量越多，那么认为这一句子在这一摘要中的内容占比越多。那么此时，与搜索内容相关的这一特征值越高，计算得到的内容占比越高。

对于每个句子的内容占比的计算中，并未考虑到，当搜索内容被分为多个词汇散布在摘要和标题中时，与搜索内容处在同一句中时，其中部分搜索内容对应的组成方式中，并不是原本的搜索内容。

例如，“在夜晚中，道路弯道的角度识别是较为困难的”与“在夜晚中，挂车在转弯时的角度识别是较为困难的”，其中同样出现了“角度识别”，但是对于用户的搜索内容来说，一定是后面的语句内容更符合用户的需求。这种情况较为简单，但是当同一句中出现了例如“在夜晚中，挂车在转弯时弯道的角度识别是较为困难的”，其中这里的“角度识别”是对应的弯道的角度识别，而不是挂车的角度识别，虽然同样完整的出现了搜索内容，但是，与用户的搜索内容相比，同样是偏差了很大的含义。因此，对于这类情况，我们还需要对上述计算得到的内容占比中出现的上述情况进行调整。

对于句子中的每一个词汇的词性，给定每一个词性不同的数值，给定方式为：名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词，分别对应数值{1，2，3，4，···，11，12}。对摘要中的每一句话按照句子中词性的连续分布顺序获得每一句话的词性序列，例如以“在夜晚中，挂车在转弯时的角度识别是较为困难的”举例，其中词性的顺序为{介词；名词；名词；名词；介词；动词；助词；助词；名词；动词；动词；副词；形容词；助词}，则对应的词性序列中的数值为{8，1，1，1，8，2，10，10，1，2，2，7，3，10}。

将每一个词性序列中，将主体部分与其周围提取出来记为局部词性组成，以上述句子中的“角度”为例，局部词性组成为{10，1，2}，并将其转化为词向量模型，局部词性组成为主体部分的词汇，和主体部分词汇的前一个词汇和后一个词汇。将标题和摘要中包含搜索中心词的随机一个句子作为第一搜索句，将标题和摘要中包含搜索中心词中除了第一搜索句以外的句子作为第二搜索句，根据词性组成获得每个第一搜索句和所有第二搜索句的相近程度，公式如下：

，

式中，表示任意句子中第t个局部词性组成与另一个句子中局部词性组成对应的主体部分的相近程度，表示第个第一搜索句第t个局部词性组成与检索关键词的相近程度，表示第个第一搜索句的第个局部词性组成与第个第二搜索句的局部词性组成对比得到的相近程度，表示第个第一搜索句和所有第二搜索句的相近程度，表示第个第一搜索句第t个局部词性组成与第个第二搜索句的局部词性组成在词向量空间中向量的余弦相似度，当这一数值越大，则表示这两个主体部分之间的相近程度越高，的数值越大，表示这两个词汇之间的相近程度越高，最终通过累加后计算得到每一个句子与其余每一个句子的相近程度，当数值越高，即对应的这一句子在摘要中的整体相近程度越高，那么在后续这一句子通过自身内容占比来计算整体摘要的内容占比时的权重越高。

内容量获取模块，句子中某一主体部分的前后词汇的词性表示了其在这一句中与前后可能出现的名词或其余主体部分之间的附属关系。因此，当不同句子之间，通过局部词性组成进行对应关系判断后，此时，如果两个句子中的某一主体部分对应为近义词时，此时如果其余的主体部分也相同，则表示这两句中的主体部分是相同的，此时其余的描述词即使不同，但是也不影响句子意思的表达。而如果其余的主体部分不同，则这两句会因主体部分不相同，从而使句子的意思不相同。

根据获得的包含搜索中心词的句子与其与句子的相近程度，以及包含搜索中心词的句子在摘要中的内容占比获得经过相近程度调整后的内容量：

，

式中，表示摘要和标题中包含搜索中心词的第个句子的内容占比，表示摘要和标题中包含搜索中心词的第个句子的相近程度，表示检索关键词在摘要中的内容量。

当摘要和标题中包含搜索中心词的第个句子自身的内容量越高，那么其在整体摘要中的信息量的贡献是越高的，但是其中每一个句子再根据自身与摘要和标题中其余包含搜索中心词的句子的整体相近程度越高，则这一句子贡献内容信息量的权重页越高。同时因为这里是对于句子内部中搜索内容相关的部分词汇以及与其余相似句子的相度所得到的特征含量，因此是局部信息，而值则是根据句子的整体内容量所给予的幅值，因此这里通过相乘的方式，将其进行结合。

通过计算词汇与搜索内容的相近程度，将其带入句子中，并根据句子中描述词的复杂程度获得这一包含搜索内容的句子在摘要中的信息量占比，再通过计算包含搜索内容的句子之间对应主语在词向量空间模型中的余弦相似度获得权重，结合权重与词汇之间的相近程度获得句子之间的相近程度，并最终获得搜索内容根据逻辑分析后，在摘要和标题中的内容量。

用户服务模块，将得到的检索关键词在摘要和标题中的内容量代入ROUGE中，其中ROUGE是评估自动文摘（这里即为每一个结果中对应的摘要内容）的一组指标，通过将生成的摘要与一组参考摘要（通常是人工生产，这里即为我们的搜索内容）进行比较计算得到相应的分值，以此来衡量生产的摘要与参考摘要之间的相似度。因此这里我们通过将计算得到的相关内容量代入ROUGE中，得到改进后的相似度指标。

根据每一个结果得到的改进后的ROUGE评价指标，对其中出现的所有结果进行降序排列输出，使得ROUGE评价指标最高的排在页面第一位，ROUGE评价指标就是最符合检索关键词的文档的匹配度，完成用户服务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种国际技术转移数据服务系统，其特征在于，该系统包括以下模块：

内容占比和相近程度获取模块，获取第一搜索句和第二搜索句，根据每个第一搜索句的描述词数量以及句子的长度获得每个第一搜索句的内容占比；根据词性确定词汇是否为主体部分，对不同词性给予不同的词性编号，标题和摘要中的每一个句子根据词性编号得到词性序列，根据每一个句子的主体部分得到局部词性组成，将局部词性组成转换为词向量模型，根据每个第一搜索句的每个局部词性组成与检索关键词的相近程度、每个第一搜索句的每个局部词性组成与第二搜索句的局部词性组成对比得到的相近程度、第一搜索句的局部词性组成与第二搜索句的局部词性组成在词向量空间中向量的余弦相似度得到每个第一搜索句和所有第二搜索句的相近程度；

2.根据权利要求1所述的一种国际技术转移数据服务系统，其特征在于，所述搜索中心词为检索关键词和检索关键词的所有分词的统称。

3.根据权利要求1所述的一种国际技术转移数据服务系统，其特征在于，所述获取内容词汇，通过近义词模型判断每一个内容词汇与每一个搜索中心词在近义词模型中的距离的方法为：

4.根据权利要求1所述的一种国际技术转移数据服务系统，其特征在于，所述根据内容词汇与搜索中心词的近义词相近程度和匹配长度得到内容词汇和检索关键词的匹配程度的方法为：

5.根据权利要求1所述的一种国际技术转移数据服务系统，其特征在于，所述获取第一搜索句和第二搜索句的获取方法为：

6.根据权利要求1所述的一种国际技术转移数据服务系统，其特征在于，所述根据每个第一搜索句的描述词数量以及句子的长度获得每个第一搜索句的内容占比的计算方法为：

，

7.根据权利要求1所述的一种国际技术转移数据服务系统，其特征在于，所述局部词性组成为主体部分的词汇，和主体部分词汇的前一个词汇和后一个词汇。

8.根据权利要求1所述的一种国际技术转移数据服务系统，其特征在于，所述根据Image第一搜索句的每个局部词性组成与检索关键词的相近程度、每个第一搜索句的每个局部词性组成与第二搜索句的局部词性组成对比得到的相近程度、第一搜索句的局部词性组成与第二搜索句的局部词性组成在词向量空间中向量的余弦相似度得到每个第一搜索句和所有第二搜索句的相近程度的方法为：

，