CN116932736A - 一种基于用户需求结合倒排表的专利推荐方法 - Google Patents
一种基于用户需求结合倒排表的专利推荐方法 Download PDFInfo
- Publication number
- CN116932736A CN116932736A CN202310882424.4A CN202310882424A CN116932736A CN 116932736 A CN116932736 A CN 116932736A CN 202310882424 A CN202310882424 A CN 202310882424A CN 116932736 A CN116932736 A CN 116932736A
- Authority
- CN
- China
- Prior art keywords
- information
- word
- recommendation
- list
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 57
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 claims description 40
- 230000006835 compression Effects 0.000 claims description 28
- 238000007906 compression Methods 0.000 claims description 28
- 238000010801 machine learning Methods 0.000 claims description 24
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 18
- 101000779415 Homo sapiens Alanine aminotransferase 2 Proteins 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据推荐的计算机信息领域,提供了一种基于用户需求结合倒排表的专利推荐方法,包括根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表;所述倒排表包括:单词编号、单词和专利编号列表;对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;所述文档列表包括:专利编号、专利信息、专利信息句子向量表示;根据用户需求信息分为精准需求和广泛需求,进行双轨推荐。本发明解决了现有技术中由于专利推荐涉及到各个领域的专利,数量庞大,使用单一领域的专利信息进行推荐,导致推荐效果不佳和专利推荐不够准确的问题。
Description
技术领域
本发明属于数据推荐的计算机信息领域,更具体地,涉及一种基于用户需求结合倒排表的专利推荐方法。
背景技术
随着社会和科技的发展,知识产权在我国越来越被重视,知识产权是企业和国家核心竞争力的关键一环,知识产权代表着企业的核心竞争力也代表了国家的综合国力,专利对于企业和国家的核心技术保护至关重要,对企业生存和竞争策略同样至关重要。在平台中为用户推荐与用户信息和用户需求相关的专利,一方面可以提高用户对该网站的兴趣,增加用户的对专利的阅读量和用户停留在该平台中的时长,有利于用户了解该平台的功能发现它的优点,吸引更多的用户注册,对该平台的发展起到积极的作用;另一方面专利的推荐提高用户的办公效率,自动推荐技术可以根据用户的基本信息和需求信息为用户提供既精准又广泛的专利推荐。据调查如果没有专利推荐技术,平台中的客户流量以及客户的忠诚度都会有所下降。
中国专利文献CN107943910A公开了一种基于组合算法的个性化图书推荐方法,包括如下步骤:对图书的内容信息进行关键词提取,求得图书的特征向量;求得用户对某个新书的评分值;生成“用户行为倒排表和查询索引”和“图书行为倒排表和查询索引”;生成相似度文件和查询索引:相似用户索引和查询索引、相似图书索引和查询索引;根据相似用户索引和查询索引、相似图书索引和查询索引计算给用户的图书推荐指数。
现有技术情况的数据推荐方法多是根据数据特征向量生成推荐集,都存在一定的局限性,难以做到既能快速又能准确把与用户相关的专利推荐给用户使用。就现有的专利推荐技术,它是在原始的推荐过程中,输入原始的专利信息,包括专利的名称和摘要等,利用分词技术和关键词技术为系统中的每一个专利构建专利画像,利用用户收藏的专利列表和搜索关键词列表来构建用户画像,利用神经网络模型分别把所有的专利画像和用户的用户画像转化为句子向量表示,计算两者的相似度,按照相似度排序输出推荐列表给用户。由于专利推荐涉及到各个领域的专利,数量庞大,为了提高推荐的可行性,使用单一领域的专利信息进行推荐,会导致推荐速度慢、推荐领域不够精确和广泛。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供一种基于用户需求结合倒排表的专利推荐方法。
本发明详细的技术方案如下:
本发明为了解决上述技术问题,提供了一种基于用户需求结合倒排表的专利推荐方法,以解决现有技术推荐速度慢、推荐领域不够精确和广泛等问题。
首先对专利数据集构建倒排表以及文档列表,并将用户需求信息分为精准需求和广泛需求;其次对精准需求进行压缩及前处理后与倒排表以及文档列表结合给出精准推荐结果;再者对广泛需求进行分段,再对每一段与倒排表以及文档列表结合给出推荐结果,将每一段的推荐结果汇总形成最后的广泛推荐结果,具体如下:
一种基于用户需求结合倒排表的专利推荐方法,其特征在于,包括以下步骤:
S1、根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表;
所述倒排表包括:单词编号、单词和专利编号列表;
S2、对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;
所述文档列表包括:专利编号、专利信息、专利信息句子向量表示;
S3、根据用户需求信息分为精准需求和广泛需求,进行双轨推荐,所述双轨推荐包括精准推荐和广泛推荐;
所述精准推荐是对用户需求进行压缩和前处理后结合倒排表生成精准候选集,再从精准候选集中的专利编号中查找文档列表获取每一个专利编号对应的专利信息,最后对用户需求与每个专利信息进行匹配,得到精准推荐列表;
所述广泛推荐是对用户需求进行分段,每段进行前处理后结合倒排表生成对应候选集,再根据对应候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息,最后对该段用户需求与每个专利信息进行匹配,得到该段的推荐列表,最后将每个段落的推荐列表合并形成广泛推荐列表。
通过将用户需求信息分为精准需求和广泛需求能够满足用户不同程度的需求;精准推荐可集中于在与用户技术所属领域以及相似几个领域进行专利推荐,用以满足用户对于特定技术的要求;而广泛需求可实现跨领域推荐,可以为用户提供不同领域但可能提供帮助的专利,可以为用户的新技术提供参考和思路。
所述S1具体包括:
S11、对专利数据集中的用户需求部分的数据进行分词,得到单词;对单词进行编号,以单词创建索引,然后记录下包含单词的所有的专利所对应的编号,形成初始倒排表;
所述用户需求部分为专利说明书摘要部分、权利要求部分以及说明书有益效果部分组成,包含了通过技术要点、效果要点的可适配单词的多道路,能够多方面为用户推荐适配的专利;
S12、对单词加入改进的相似词机制,结合预训练好的中文词向量文件构建单词的相似度关系,形成最终的倒排表;
所述的改进的相似词机制具体为:遍历初始倒排表中每一个单词,结合使用预训练好的中文词向量文件(从外部已知渠道下载的预训练好的中文词向量文件sgns.zhihu.word,优选为https://github.com/Embedding/Chinese-Word-Vectors)获取相似度高的前d个单词,再使用综合相似度排序的方法从中选取前c'个相似词,遍历这c'个相似词,若倒排表中含有该词的相似词,将该相似词的专利编号加入该词倒排表专利编号列表中,经过上述遍历过程形成最终倒排表;
其中综合相似度排序的方法是指选取与词存在重复字的他词并计算重复度p,结合他词与单词的相似度h,计算单词的综合相似度f,γ为可调整参数,即在调试时根据相似度和重复度调整出一个合适的值,调整的目的是使综合相似度计算输出的结果在字面上更符合用户输入的需求文字:
f=(1-γ)p+γh,其中γ∈(0,1) (1)。
所述精准推荐具体包括:
S311、使用改进的基于GPT2的需求压缩模型对用户需求信息进行压缩;
S312、压缩后的用户需求信息进行前处理,包括分词、去停用词、去特殊停用词操作;例如,“可控制的有基准的文本生成机器学习模型”操作后“可控制有基准文本生成机器学习模型”,用前处理完后的用户需求信息去查找倒排表并生成精准候选集;
S313、对压缩后的用户需求信息使用bert模型获取其句子向量表示;
S314、由精准候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息句子向量;
S315、将压缩后的用户需求信息的句子向量与精准候选集中的每一个专利的专利信息句子向量进行余弦相似度计算,根据余弦相似度计算结果选取相似度最高的前n条专利信息作为精准推荐结果。
所述改进的基于GPT2的需求压缩模型包括:
在原始GPT2模型的基础上并联一个编码器,所述编码器包括单词概率分布和多头注意力机制,所述原始GPT2模型包括m层解码器;
在输入数据后,数据同时流向GPT2模型和编码器,使用编码器上单词概率分布和GPT2模型内部的解码器状态计算权重G,再使用权重G计算时刻的单词概率分布,最后输出概率值最大的预测单词。
在改进的基于GPT2的需求压缩模型生成最终的预测单词概率前,使用编码器中的多头注意力机制提取原始输入的单词概率,优化最终输出的预测单词,来解决词汇表外溢的问题,使预测单词更符合原文语义;加入编码器,其中编码器的多头注意力机制可以获取源文本中的单词概率,并结合编码器上单词概率分布能够更好的预测单词与原文语义不脱离,使得推荐结果更加符合用户需求;
将前处理后的用户需求信息作为改进的基于GPT2的需求压缩模型的输入数据,经过改进的基于GPT2的需求压缩模型的10层解码器生成每层的解码器状态si,数据经过编码器生成的注意分布作为源文本上单词的概率分布记为a;使用每层的解码器状态si和编码器生成的源文本上的单词概率分布a计算权重G:
其中G∈[0,1],Sigmoid为激活函数,W、b为可调整参数,S1-S10是ti时刻改进的基于GPT2的需求压缩模型中每层的解码器状态值;
其中P(w)是t时刻改进的基于GPT2的需求压缩模型预测出的单词w在词汇表中的最终分布,所述词汇表是在预训练时生成的;若w是词汇表外的词,则P(w)=0,表示的是t时刻词w在源文本中的上的注意力分布;若单词w没有出现,则/>T(w)是指t时刻改进的基于GPT2的需求压缩模型预测出的单词w在词汇表和源文本中的最终分布;
用户需求信息的压缩文本随时间t更新,直至所有用户需求信息被压缩完成。
所述广泛推荐具体为:
S321、将用户需求信息进行需求分段处理,对处理后的每一段需求信息查找倒排表,得到每一段需求信息对应的候选集;
S322、对分段后的每一段需求信息使用bert模型获取其句子向量表示;
S323、由候选集中的专利编号查找文档列表获取候选集中的每一个专利编号对应的专利信息句子向量。再将每一段需求信息的句子向量与其候选集的每一条专利信息句子向量进行相似度计算,根据相似度计算结果得出每一段需求信息的前k个推荐结果;将不同段落的前k个推荐结果合并成广泛推荐列表。
所述需求分段具体包括:
1)获取用户需求信息,按照分号、句号两种符号分成z段;
2)将分段后的需求信息进行前处理,然后通过TF-IDF关键词提取机制对每一段需求信息进行关键词提取;所述前处理包括分词、去停用词、去标点符号等;
3)根据第一段的关键词查找倒排表,生成候选集1;
4)对分段后的第一段需求信息使用bert模型获取其句子向量表示;
5)由候选集1中的专利编号查找文档列表获取候选集中的每一个专利编号对应的专利信息句子向量。计算第一段需求信息的句子向量与每个专利信息句子向量的进行余弦相似度计算,选取相似度最高的前j条专利信息,生成推荐列表1;
6)对剩余的z-1段需求信息分别重复第2)-5)步,将所有生成的推荐表合并,最终形成广泛推荐表。
与现有技术相比,本发明的有益效果为:
(1)本发明提供的一种基于用户需求使用文本压缩结合倒排表的推荐方法,能够快速地为用户实现广泛推荐和精准推荐,其中广泛推荐可以实现跨领域推荐,给用户更多撰写专利的思路;精准推荐可以根据用户整体需求给用户相同领域相似度高的专利推荐,以便用户深入了解该领域相关信息。
(2)本发明提供的一种基于用户需求结合倒排表的专利推荐方法,对倒排表中的单词使用改进的相似词机制,构建相似度关系。该方法不仅使推荐的结果更加灵活,还充分考虑用户对推荐结果的直观接受程度,优先推荐结果中含有用户需求词的专利,用户对推荐的结果更加满意,在该平台中的体验感更佳。
(3)本发明提供的一种基于用户需求结合倒排表的专利推荐方法,使用改进的基于GPT2需求压缩模型对需求文本进行压缩,该方法具有生成词汇表外单词能力,使预测出的每个词更加准确,优化最终输出的预测单词,来解决词汇表外溢的问题,使预测单词更符合原文语义,提高了模型的准确性,也使精准推荐流程的结果更加准确。
附图说明
图1是本发明所述方法流程示意图。
图2是本发明所述方法详细处理方案流程图。
图3是本发明实施例1中生成的倒排表文件示意图。
图4是本发明实施例1中改进的基于GPT2的需求压缩模型。
具体实施方式
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明公开所属技术领域的普通技术人员通常理解的相同含义。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例提供一种基于用户需求结合倒排表的专利推荐方法,如图1、图2所示;
S1、根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表。
具体的,所述S1步骤具体包括:
S11、对专利数据集中的用户需求部分的数据进行分词,得到单词;对单词进行编号,以单词创建索引,然后记录下包含单词的所有的专利所对应的编号,形成初始倒排表;
所述用户需求部分为专利说明书摘要部分、权利要求部分以及说明书有益效果部分组成,包含了通过技术要点、效果要点的可适配单词的多道路,能够多方面为用户推荐适配的专利;
S12、对单词加入改进的相似词机制,结合预训练好的中文词向量文件构建单词的相似度关系,形成最终的倒排表,如图3所示,所述倒排表具体包括:单词编号、单词和专利编号列表;
所述的改进的相似词机制具体为:遍历初始倒排表中每一个单词,结合使用预训练好的中文词向量文件(从外部已知渠道下载的预训练好的中文词向量文件sgns.zhihu.word,优选为https://github.com/Embedding/Chinese-Word-Vectors)获取相似度高的前d个单词,再使用综合相似度排序的方法从中选取前c'个相似词,遍历这c'个相似词,若倒排表中含有该词的相似词,将该相似词的专利编号加入该词倒排表专利编号列表中,经过上述遍历过程形成最终倒排表;优选的,最后可对单词进行去重处理,即对互为相似词的多个单词进行删除;
其中综合相似度排序的方法是指选取与词存在重复字的他词并计算重复度p,结合他词与单词的相似度h,计算单词的综合相似度f,γ为可调整参数,即在调试时根据相似度和重复度调整出一个合适的值,调整的目的是使综合相似度计算输出的结果在字面上更符合用户输入的需求文字:
f=(1-γ)p+γh,其中γ∈(0,1) (1)。
S2、对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;
所述文档列表包括:id(专利编号)、专利信息、专利信息句子向量表示;倒排表中的专利编号就是文档列表的id;在得到候选集后,根据候选集的专利编号查找专利列表得到专利信息;所述专利信息是指每个专利的标题和摘要;
S3、根据用户需求信息分为精准推荐和广泛推荐,并进行双轨推荐;
所述精准推荐是对用户需求进行压缩和前处理后结合倒排表生成精准候选集,再从精准候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息,最后使用用户需求与每个专利信息进行匹配,得到精准推荐列表;
所述广泛推荐是对用户需求进行分段,每段进行前处理后结合倒排表生成候选集,再由候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息,最后使用该段用户需求与每个专利信息进行匹配,得到该段的推荐列表,最后将每个段落的推荐列表合并形成广泛推荐列表。
所述用户需求结合倒排表生成候选集,是指遍历倒排表,查找经过处理后的用户需求中每个词在倒排表中对应的所有专利编号,将用户需求中每个词对应的专利编号形成候选集。每个词对应一个或者多个专利。
所述精准推荐具体为:
S311、使用改进的基于GPT2的需求压缩模型对用户需求信息进行压缩;
S312、压缩后的用户需求信息进行前处理,包括分词、去停用词、去特殊停用词操作;例如,“可控制的有基准的文本生成机器学习模型”操作后“可控制有基准文本生成机器学习模型”。用前处理完后的用户需求信息去查找倒排表并生成精准候选集;
S313、对压缩后的用户需求信息使用bert模型获取其句子向量表示;
S314、由精准候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息句子向量;
S315、将压缩后的用户需求信息的句子向量与精准候选集中的每一个专利的专利信息句子向量进行余弦相似度计算,根据余弦相似度计算结果选取相似度最高的前5条专利信息作为精准推荐结果。
所述改进的基于GPT2的需求压缩模型包括:
如图4所示,在原始GPT2模型的基础上并联一个编码器,所述编码器包括单词概率分布和多头注意力机制,所述原始GPT2模型包括m层解码器;优选的,所述原始GPT2模型包括m10层解码器;
在输入数据后,数据同时流向GPT2模型和编码器,使用编码器上单词概率分布和GPT2模型内部的解码器状态计算权重G,再使用权重G计算时刻的单词概率分布,最后输出概率值最大的预测单词;
在改进的基于GPT2的需求压缩模型生成最终的预测单词概率前,使用编码器中的多头注意力机制提取原始输入的单词概率,优化最终输出的预测单词,来解决词汇表外溢的问题,使预测单词更符合原文语义;
将前处理后的用户需求信息作为改进的基于GPT2的需求压缩模型的输入数据,经过改进的基于GPT2的需求压缩模型的10层解码器生成每层的解码器状态si,数据经过编码器生成的注意分布可以作为源文本上单词的概率分布记为a;使用每层的解码器状态si和编码器生成的源文本上的单词概率分布a计算权重G:
其中G∈[0,1],Sigmoid为激活函数,W、b为可调整参数,S1-S10是ti时刻改进的基于GPT2的需求压缩模型中每层的解码器状态值,T为转置计算符号,是数学常用标识;
其中P(w)是t时刻改进的基于GPT2的需求压缩模型预测出的单词w在词汇表中的最终分布,所述词汇表是在预训练时生成的;若w是词汇表外的词则P(w)=0,表示的是t时刻词w在源文本中的上的注意力分布;若单词w没有出现在源文本中,则/>T(w)是指t时刻改进的基于GPT2的需求压缩模型预测出的单词w在词汇表和源文本中的最终分布;
用户需求信息的压缩文本随时间t更新,直至所有文本被压缩完成。
所述改进的基于GPT2需求压缩模型需求压缩的步骤,如:
(1)输入用户需求信息:“一种可控制基准响应生成框架包括机器学习模型、基准接口和控制接口。机器学习模型被训练为基于输入文本输出计算机生成的文本。基准接口由机器学习模型可使用来访问包括与输入文本相关的信息的基准源。控制接口可由机器学习模型用来识别控制信号。机器学习模型被配置为将来自基准源的信息包括在计算机生成的文本中,并且基于控制信号聚焦计算机生成的文本。”
(2)调用模型;
(3)生成压缩文本:“可控制的有基准的文本生成机器学习模型”。
所述广泛推荐具体为:
S321、将用户需求信息进行需求分段处理,对处理后的每一段需求信息查找倒排表,得到每一段需求信息对应的候选集;
S322、对分段后的每一段需求信息使用bert模型获取其句子向量表示
S323、由候选集中的专利编号查找文档列表获取候选集中的每一个专利编号对应的专利信息句子向量。再将每一段需求信息的句子向量与每一条专利信息句子向量进行余弦相似度计算,根据相似度计算结果得出每一段的前5个推荐结果;将不同段落的前5个推荐结果合并成广泛推荐列表。
所述需求分段具体包括:
1)获取用户需求信息,按照分号、句号两种符号分成z段,优选地,按照分号、句号两种符号分成5段;
2)将分段后的需求信息进行预处理,然后通过TF-IDF关键词提取机制对每一段需求信息进行关键词提取;例如:
“一种可控制基准响应生成框架包括机器学习模型、基准接口和控制接口。机器学习模型被训练为基于输入文本输出计算机生成的文本。基准接口由机器学习模型可使用来访问包括与输入文本相关的信息的基准源。控制接口由机器学习模型用来识别控制信号。机器学习模型被配置为将来自基准源的信息包括在计算机生成的文本中,并且基于控制信号聚焦计算机生成的文本。”用户需求信息共有五段;首先,分段预处理后的用户需求:
['可控制基准响应生成框架机器学习模型基准接口控制接口',
'机器学习模型训练输入文本输出计算机生成文本',
'基准接口机器学习模型访问输入文本信息基准源',
'控制接口机器学习模型识别控制信号',
'机器学习模型配置自基准源信息计算机生成文本控制信号聚焦计算机生成文本'],共有五段分词后的数据。
然后,使用TF-IDF关键词提取后的数据为:
['可控制基准响应框架接口',
'训练输入文本输出计算机生成',
'基准接口访问输入信息基准源',
'控制接口识别信号',
'配置自基准源信息计算机聚焦'],共有五段关键词提取后的数据。
使用TF-IDF关键词提取一方面解决了一段话相同的词重复出现的问题,另一方面削弱了每句话中重复出现的词对检索结果的影响,如“机器学习”、“模型”这两个词在以上5段话中重复出现,如果将这两个重复词都放在每段的关键字中检索,检索结果将全部倾向于机器学习模型类型的专利,这与分段后进行广泛推荐的初衷相违背。
3)根据第一段的关键词查找倒排表,生成候选集1;
4)对分段后的第一段需求信息使用bert模型获取其句子向量表示;
5)由候选集1中的专利编号查找文档列表获取候选集中的每一个专利编号对应的专利信息句子向量。计算第一段需求信息的句子向量与每个专利信息句子向量的进行余弦相似度计算,选取相似度最高的前5条专利信息,生成推荐列表1;
6)对剩余的4段需求信息分别重复第2)-5)步,将所有生成的推荐表合并,最终形成广泛推荐表。
以本实施例的用户需求信息为例,其推荐结果如下表:
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (9)
1.一种基于用户需求结合倒排表的专利推荐方法,其特征在于,包括
S1、根据用户需求对专利数据集构建初始倒排表并加入相似词机制形成最终的倒排表;
所述倒排表包括:单词编号、单词和专利编号列表;
S2、对专利数据集中的专利信息进行编号,形成文档列表,为文档列表中的每一个专利的专利信息使用bert模型获取句子向量表示;
所述文档列表包括:专利编号、专利信息、专利信息句子向量表示;
S3、根据用户需求信息分为精准需求和广泛需求,进行双轨推荐,所述双轨推荐包括精准推荐和广泛推荐;
所述精准推荐是对用户需求进行压缩和前处理后结合倒排表生成精准候选集,再从精准候选集中的专利编号中查找文档列表获取每一个专利编号对应的专利信息,最后对用户需求与每个专利信息进行匹配,得到精准推荐列表;
所述广泛推荐是对用户需求进行分段,每段进行前处理后结合倒排表生成对应候选集,再根据对应候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息,最后对该段用户需求与每个专利信息进行匹配,得到该段的推荐列表,最后将每个段落的推荐列表合并形成广泛推荐列表。
2.根据权利要求1所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述S1具体包括:
S11、对专利数据集中的用户需求部分的数据进行分词,得到单词;对单词进行编号,以单词创建索引,然后记录下包含单词的所有的专利所对应的编号,形成初始倒排表;
S12、对单词加入改进的相似词机制,结合预训练好的中文词向量文件构建单词的相似度关系,形成最终的倒排表。
3.根据权利要求2所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述改进的相似词机制为:
遍历初始倒排表中每一个词,结合预训练好的中文词向量文件,获取相似度高的前d个词,再使用综合相似度排序的方法从中选取前c’个相似词,遍历这c’个相似词,若倒排表中含有该词的相似词,将该相似词的专利编号加入该词的倒排表专利编号列表中,经过以上遍历过程形成最终倒排表;
所述综合相似度排序的方法是指选取与词存在重复字的他词并计算重复度p,结合他词与单词的相似度h,计算单词的综合相似度f,γ为可调整参数:
f=(1-γ)p+γh,其中γ∈(0,1) (1)。
4.根据权利要求2所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述精准推荐具体包括:
S311、使用改进的基于GPT2的需求压缩模型对用户需求信息进行压缩;
S312、压缩后的用户需求信息进行前处理,包括分词、去停用词、去特殊停用词操作;例如,“可控制的有基准的文本生成机器学习模型”操作后“可控制有基准文本生成机器学习模型”,用前处理完后的用户需求信息去查找倒排表并生成精准候选集;
S313、对压缩后的用户需求信息使用bert模型获取其句子向量表示;
S314、由精准候选集中的专利编号查找文档列表获取每一个专利编号对应的专利信息句子向量;
S315、将压缩后的用户需求信息的句子向量与精准候选集中的每一个专利的专利信息句子向量进行余弦相似度计算,根据余弦相似度计算结果选取相似度最高的前n条专利信息作为精准推荐结果。
5.根据权利要求4所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述改进的基于GPT2的需求压缩模型包括:
在原始GPT2模型的基础上并联一个编码器,所述编码器包括单词概率分布和多头注意力机制,所述原始GPT2模型包括m层解码器;
在输入数据后,数据同时流向GPT2模型和编码器,使用编码器上单词概率分布和GPT2模型内部的解码器状态计算权重G,再使用权重G计算时刻的单词概率分布,最后输出概率值最大的预测单词。
6.根据权利要求5所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,在改进的基于GPT2的需求压缩模型生成最终的预测单词概率前,使用编码器中的多头注意力机制提取原始输入的单词概率,优化最终输出的预测单词;
将前处理后的用户需求信息作为改进的基于GPT2的需求压缩模型的输入数据,经过改进的基于GPT2的需求压缩模型的m层解码器生成每层的解码器状态si,数据经过编码器生成的注意分布可以作为源文本上单词的概率分布记为a;使用每层的解码器状态si和编码器生成的源文本上的单词概率分布a计算权重G:
其中G∈[0,1],Sigmoid为激活函数,W、b为可调整参数,S1-S10是ti时刻GPT2模型中每层的解码器状态值;
其中P(w)是t时刻改进的基于GPT2的需求压缩模型预测出的单词w在词汇表中的最终分布,所述词汇表是在预训练时生成的;若w是词汇表外的词,则P(w)=0,表示的是t时刻词w在源文本中的上的注意力分布;若单词w没有出现,则/>T(w)是t时刻改进的基于GPT2的需求压缩模型预测出的单词w在词汇表和源文本中的最终分布。
7.根据权利要求1所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述广泛推荐具体为:
S321、将用户需求信息进行需求分段处理,对处理后的每一段需求信息查找倒排表,得到每一段需求信息对应的候选集;
S322、对分段后的每一段需求信息使用bert模型获取其句子向量表示
S323、由候选集中的专利编号查找文档列表获取候选集中的每一个专利编号对应的专利信息句子向量。再将每一段需求信息的句子向量与每一条专利信息句子向量进行余弦相似度计算,根据相似度计算结果得出每一段的前k个推荐结果;将不同段落的前k个推荐结果合并成广泛推荐列表。
8.根据权利要求7所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述需求分段具体包括:
1)获取用户需求信息,按照分号、句号两种符号分成z段;
2)将分段后的需求信息进行预处理,然后通过TF-IDF关键词提取机制对每一段需求信息进行关键词提取;
3)根据第一段的关键词查找倒排表,生成候选集1;
4)对分段后的第一段需求信息使用bert模型获取其句子向量表示;
5)由候选集1中的专利编号查找文档列表获取候选集中的每一个专利编号对应的专利信息句子向量。计算第一段需求信息的句子向量与候选集中的专利信息句子向量的进行余弦相似度计算,选取相似度最高的前j条专利信息,生成推荐列表1;
6)对剩余的z-1段需求信息分别重复第2)-5)步,将所有生成的推荐表合并,最终形成广泛推荐表。
9.根据权利要求4所述的一种基于用户需求结合倒排表的专利推荐方法,其特征在于,所述前处理包括分词、去停用词、去特殊停用词操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310882424.4A CN116932736A (zh) | 2023-07-18 | 2023-07-18 | 一种基于用户需求结合倒排表的专利推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310882424.4A CN116932736A (zh) | 2023-07-18 | 2023-07-18 | 一种基于用户需求结合倒排表的专利推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116932736A true CN116932736A (zh) | 2023-10-24 |
Family
ID=88389046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310882424.4A Pending CN116932736A (zh) | 2023-07-18 | 2023-07-18 | 一种基于用户需求结合倒排表的专利推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116932736A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668236A (zh) * | 2024-01-25 | 2024-03-08 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 一种专利标准融合系统的分析方法、系统及存储介质 |
-
2023
- 2023-07-18 CN CN202310882424.4A patent/CN116932736A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668236A (zh) * | 2024-01-25 | 2024-03-08 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 一种专利标准融合系统的分析方法、系统及存储介质 |
CN117668236B (zh) * | 2024-01-25 | 2024-04-16 | 山东省标准化研究院(Wto/Tbt山东咨询工作站) | 一种专利标准融合系统的分析方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN108984530B (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN113435203B (zh) | 多模态命名实体识别方法、装置以及电子设备 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN109670041A (zh) | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN113505204B (zh) | 召回模型训练方法、搜索召回方法、装置和计算机设备 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN111859967A (zh) | 实体识别方法、装置,电子设备 | |
CN110826298A (zh) | 一种智能辅助定密系统中使用的语句编码方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 | |
CN114138969A (zh) | 文本处理方法及装置 | |
CN112000804B (zh) | 一种微博热点话题用户群情感倾向性分析方法 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN115481313A (zh) | 一种基于文本语义挖掘的新闻推荐方法 | |
CN113159187A (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |