CN114781379A - 一种获取关键短语的数据处理系统 - Google Patents
一种获取关键短语的数据处理系统 Download PDFInfo
- Publication number
- CN114781379A CN114781379A CN202210710981.3A CN202210710981A CN114781379A CN 114781379 A CN114781379 A CN 114781379A CN 202210710981 A CN202210710981 A CN 202210710981A CN 114781379 A CN114781379 A CN 114781379A
- Authority
- CN
- China
- Prior art keywords
- phrase
- obtaining
- key phrases
- word
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种获取关键短语的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:对初始文本进行处理,得到初始文本对应的语句列表;根据初始文本中每一初始词和预设短语配置表,确定出中间短语列表,将初始文本和每一中间短语分别输入至目标预训练语言模型中,获取初始文对应的目标词向量和每一中间短语对应的目标词向量,根据初始文对应的目标向和每一中间短语对应的目标词向量,获取中间短语列表对应的相似度列表,当中间短语对应的相似度不小于预设的相似度阈值时,确定中间短语为关键短语;本发明能够保证关键短语抽取更符合用户的需求,提高了用户的体验感。
Description
技术领域
本发明涉及短语抽取技术领域,尤其涉及一种获取关键短语的数据处理系统。
背景技术
为了提高人们浏览的效率,通常需要将文本中的关键信息确定出来,来简洁的表示文本。示例的,在进行视频推荐的时候,通常将视频标题中的短语或者词提取出来作为推荐内容,以简洁的表示视频的内容。由于短语的使用越来越多,因此,如何自动抽取关键短语成了一个研究热点。
现有技术中,在抽取关键短语的时候,是按照语法规则来抽取的。通常是将分词组合,使其满足特定的语法规则,例如,满足词性序列要求,然后将该组合确定为关键短语,但是在实际应用的生产环境中,尤其是对于无监督的垂直领域,许多关键短语抽取模型,例如,textrank,yake,autophrasex,UCphrase等关键短语抽取模型,无法实现可解释性和抽取结果的可控性,无法保证关键短语抽取更符合用户的需求,使得用户的体验感差。
发明内容
针对上述技术问题,本发明采用的技术方案为一种获取关键短语的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:预设短语配置列表和初始文本集A={A1,……,Ai,……,An},Ai是指第i个初始文本,i=1……n,n为初始文本数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100、对Ai进行处理,得到Ai对应的语句列表Bi={Bi1,……,Bir,……,},Bir=
{B1 ir,……Bj ir,……,Bm ir},Bj ir是指Ai中第r个语句的第j个初始词语,j=1……m,m是指Ai中
第r个语句对应的初始词语数量;
S300、将Ai和Dir分别输入至目标预训练语言模型中,获取Ai对应的目标词向量Hi=(Hi1,……,Hit,……,Hik)和Dir对应的目标词向量Gir=(G1 ir,……,Gt ir,……,Gk ir),Hit是指Ai对应的第t位的bit值,Gt ir是指Dir对应的第t位的bit值,t=1……k,k为预训练语言模型对应的向量bit位个数;
S500、Fir≥预设的相似度阈值时,确定Fir对应的中间短语为关键短语且对关键短语进行排序,获取关键短语列表。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种获取关键短语的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明的一种获取关键短语的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,所述数据库包括:预设短语配置列表和初始文本集,当所述计算机程序被处理器执行时,实现以下步骤:对初始文本进行处理,得到初始文本对应的语句列表;根据初始文本中每一初始词和预设短语配置表,确定出中间短语列表,将初始文本和每一中间短语分别输入至目标预训练语言模型中,获取初始文对应的目标词向量和每一中间短语对应的目标词向量,根据初始文对应的目标向和每一中间短语对应的目标词向量,获取中间短语列表对应的相似度列表,遍历相似度列表且中间短语对应的相似度不小于预设的相似度阈值时,确定中间短语为关键短语且对关键短语进行排序,获取关键短语列表;能够实现可解释性和抽取结果的可控性,保证关键短语抽取更符合用户的需求,提高了用户的体验感。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的一种获取关键短语的数据处理系统的执行计算机程序的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本实施例提供了一种获取关键短语的数据处理系统,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:预设短语配置列表和初始文本集A={A1,……,Ai,……,An},Ai是指第i个初始文本,i=1……n,n为初始文本数量,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、对Ai进行处理,得到Ai对应的语句列表Bi={Bi1,……,Bir,……,},Bir=
{B1 ir,……Bj ir,……,Bm ir},Bj ir是指Ai中第r个语句的第j个初始词语,j=1……m,m是指Ai中
第r个语句对应的初始词语数量。
具体地,对Ai进行处理为分词处理,本领域技术人员可以采取现有技术中任一分词方法,在此不再赘述。
具体地,A中每一Ai对应的领域均一致,能够保证权重值的准确性,进一步通过权重值,准确地确定出的关键短语。
具体地,在S100步骤中,Bir的排序是按照每一Bj ir的分词顺序进行排序的,能够有利于通过初始词组成关键短语。
具体地,在S200步骤中还包括如下步骤:
S201、获取Bj ir对应的词类型,其中,每一Bj ir对应的词类型通过分词处理可以获取,在此不再赘述。
S203、根据Bir中每一Bj ir对应的词类型与用户输入的短语构建条件,确定出中间短语;可以理解为:根据用户输入的短语构建条件,将Bir中Bj ir进行重新组合,生成中间短语,例如,用户输入的短语构建条件为基于词语的类型构成为:引号+名词+引号+若干名词;能够从一段语句中删除用户不需要的词,保证关键短语抽取更符合用户的需求,提高了用户的体验感。
S300、将Ai和Dir分别输入至目标预训练语言模型中,获取Ai对应的目标词向量Hi=(Hi1,……,Hit,……,Hik)和Dir对应的目标词向量Gir=(G1 ir,……,Gt ir,……,Gk ir),Hit是指Ai对应的第t位的bit值,Gt ir是指Dir对应的第t位的bit值,t=1……k,k为预训练语言模型对应的向量bit位个数。
具体地,对预训练语言模型进行训练,得到目标预训练语言模型,训练预训练语言模型的方法包括:mask language model方法和SimCSE方法,本领域技术人员可以采取masklanguage model方法或SimCSE方法训练预训练语言模型的过程,在此不再赘述,其中,本领域技术人员可以根据需求确定预训练语言模型,例如,预训练语言模型为Bert模型或者sentence-transformer模型等。
优选地,在本实施例中预训练语言模型为Bert模型,通过Bert模型,能够更加便利的确定出词向量。
具体地,在S300步骤中还通过如下步骤确定Gir:
S301、获取Dir对应的词语列表Cir={C1 ir,……,Cx ir,……,Cp ir},其中,Cx ir是指Dir对应的第x个初始词语,x=1……p,p为Dir对应的初始词语数量;
S303、将Cx ir输入至目标预训练语言模型中,获取Cx ir对应的中间词向量Ux ir=(Ux1 ir,……,Uxt ir,……,Uxk ir),Uxt ir是指Cx ir对应的第t位的bit值;
S305、根据Ux ir,获取Gt ir,Gt ir符合如下条件:
进一步地,在S305步骤中还通过如下步骤确定Wx ir:
S3051、从A中获取Cx ir对应的第一词数Vx ir和第二词数Lx ir。
具体地,Vx ir是指Cx ir在Ai中出现的次数。
具体地,Lx ir是指Cx ir在A中出现的次数。
S3053、根据Vx ir和Lx ir,确定出Cx ir对应的词频Zx ir,Zx ir符合条件如下:
S3055、根据Zx ir,获取Wx ir,Wx ir符合条件如下:
上述,通过任一初始词的词频确定出该词对应的权重值,能够使得在关键短语中更倾向权重值高的词,进而基于初始词,准确的构建关键短语,便于保证关键短语抽取更符合用户的需求,提高了用户的体验感。
S500、Fir≥预设的相似度阈值时,确定Fir对应的中间短语为关键短语且对关键短语进行排序,获取关键短语列表,其中,本领域技术人员根据实际需求设置相似度阈值,在此不再赘述。
在一个具体的实施例中,还通过包括如下步骤确定关键短语:
S2、Fir≥预设的相似度阈值时,确定Fir对应的中间短语为第一目标短语且基于第一目标短语,构建成第一目标短语列表Y。
S3、F'ir≥预设的相似度阈值时,确定F'ir对应的中间短语为第二目标短语且基于第二目标短语,构建成第二目标短语列表Y'。
S4、根据Y和Y',获取关键短语列表Y0且将Y0内任一中间短语作为关键短语,Y0符合如下条件:
Y0=Y∩Y'。
上述,通过两种不同的相似度算法均可以确定为关键短语,一定是能够表征该文本的短语,能够实现可解释性和抽取结果的可控性,保证关键短语抽取更符合用户的需求,提高了用户的体验感。
具体地,关键短语列表中关键短语排序是按照关键短语的相似度由大至小顺序进行排序。
本实施例提供了一种获取关键短语的数据处理系统包括:数据库、处理器和存储有计算机程序的存储器,所述数据库包括:预设短语配置列表和初始文本集,当所述计算机程序被处理器执行时,实现以下步骤:对初始文本进行处理,得到初始文本对应的语句列表;根据初始文本中每一初始词和预设短语配置表,确定出中间短语列表,将初始文本和每一中间短语分别输入至目标预训练语言模型中,获取初始文对应的目标词向量和每一中间短语对应的目标词向量,根据初始文对应的目标向和每一中间短语对应的目标词向量,获取中间短语列表对应的相似度列表,遍历相似度列表且中间短语对应的相似度不小于预设的相似度阈值时,确定中间短语为关键短语且对关键短语进行排序,获取关键短语列表;能够实现可解释性和抽取结果的可控性,保证关键短语抽取更符合用户的需求,提高了用户的体验感。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (8)
1.一种获取关键短语的数据处理系统,其特征在于,所述系统包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:预设短语配置列表和初始文本集A={A1,……,Ai,……,An},Ai是指第i个初始文本,i=1……n,n为初始文本数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100、对Ai进行处理,得到Ai对应的语句列表Bi={Bi1,……,Bir,……,},Bir=
{B1 ir,……Bj ir,……,Bm ir},Bj ir是指Ai中第r个语句的第j个初始词语,j=1……m,m是指Ai中
第r个语句对应的初始词语数量;
S300、将Ai和Dir分别输入至目标预训练语言模型中,获取Ai对应的目标词向量Hi=(Hi1,……,Hit,……,Hik)和Dir对应的目标词向量Gir=(G1 ir,……,Gt ir,……,Gk ir),Hit是指Ai对应的第t位的bit值,Gt ir是指Dir对应的第t位的bit值,t=1……k,k为预训练语言模型对应的向量bit位个数;
S500、Fir≥预设的相似度阈值时,确定Fir对应的中间短语为关键短语且对关键短语进行排序,获取关键短语列表。
2.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,A中每一Ai对应的领域均一致。
3.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,在S100步骤中,Bir的排序是按照每一Bj ir的分词顺序进行排序的。
4.根据权利要求3所述的获取关键短语的数据处理系统,其特征在于,在S200步骤中还包括如下步骤:
S201、获取Bj ir对应的词类型;
S203、根据Bir中每一Bj ir对应的词类型与预设配置表中预设组词规则,确定出中间短语。
5.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,在S300步骤中还通过如下步骤确定Gir:
S301、获取Dir对应的词语列表Cir={C1 ir,……,Cx ir,……,Cp ir},其中,Cx ir是指Dir对应的第x个初始词语,x=1……p,p为Dir对应的初始词语数量;
S303、将Cx ir输入至目标预训练语言模型中,获取Cx ir对应的中间词向量Ux ir=(Ux1 ir,……,Uxt ir,……,Uxk ir),Uxt ir是指Cx ir对应的第t位的bit值;
S305、根据Ux ir,获取Gt ir,Gt ir符合如下条件:
7.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,所述目标预训练语言模型为Bert模型。
8.根据权利要求1所述的获取关键短语的数据处理系统,其特征在于,关键短语列表中关键短语排序是按照关键短语的相似度由大至小顺序进行排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210710981.3A CN114781379B (zh) | 2022-06-22 | 2022-06-22 | 一种获取关键短语的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210710981.3A CN114781379B (zh) | 2022-06-22 | 2022-06-22 | 一种获取关键短语的数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114781379A true CN114781379A (zh) | 2022-07-22 |
CN114781379B CN114781379B (zh) | 2022-09-16 |
Family
ID=82422403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210710981.3A Active CN114781379B (zh) | 2022-06-22 | 2022-06-22 | 一种获取关键短语的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114781379B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017269A (zh) * | 2022-08-05 | 2022-09-06 | 中科雨辰科技有限公司 | 一种确定相似文本的数据处理系统 |
CN115408160A (zh) * | 2022-09-16 | 2022-11-29 | 湖南胜云光电科技有限公司 | 一种进程监控的数据处理系统 |
CN117371435A (zh) * | 2023-10-09 | 2024-01-09 | 北京睿企信息科技有限公司 | 一种获取热度发生波动的热词的数据处理系统 |
CN117371436A (zh) * | 2023-10-09 | 2024-01-09 | 北京睿企信息科技有限公司 | 一种热度递增的热词获取系统 |
CN117708439A (zh) * | 2024-02-06 | 2024-03-15 | 每日互动股份有限公司 | 一种目标文本的推送方法、装置、介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210004439A1 (en) * | 2019-07-02 | 2021-01-07 | Microsoft Technology Licensing, Llc | Keyphrase extraction beyond language modeling |
CN113221559A (zh) * | 2021-05-31 | 2021-08-06 | 浙江大学 | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 |
CN113408267A (zh) * | 2021-06-23 | 2021-09-17 | 沈阳雅译网络技术有限公司 | 一种基于预训练模型的词对齐性能提升方法 |
WO2021255057A1 (en) * | 2020-06-18 | 2021-12-23 | Koninklijke Philips N.V. | A computer- implemented method of structuring content for training an artificial intelligence model |
CN113934837A (zh) * | 2021-09-14 | 2022-01-14 | 达而观数据(成都)有限公司 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
-
2022
- 2022-06-22 CN CN202210710981.3A patent/CN114781379B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210004439A1 (en) * | 2019-07-02 | 2021-01-07 | Microsoft Technology Licensing, Llc | Keyphrase extraction beyond language modeling |
WO2021255057A1 (en) * | 2020-06-18 | 2021-12-23 | Koninklijke Philips N.V. | A computer- implemented method of structuring content for training an artificial intelligence model |
CN113221559A (zh) * | 2021-05-31 | 2021-08-06 | 浙江大学 | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 |
CN113408267A (zh) * | 2021-06-23 | 2021-09-17 | 沈阳雅译网络技术有限公司 | 一种基于预训练模型的词对齐性能提升方法 |
CN113934837A (zh) * | 2021-09-14 | 2022-01-14 | 达而观数据(成都)有限公司 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017269A (zh) * | 2022-08-05 | 2022-09-06 | 中科雨辰科技有限公司 | 一种确定相似文本的数据处理系统 |
CN115408160A (zh) * | 2022-09-16 | 2022-11-29 | 湖南胜云光电科技有限公司 | 一种进程监控的数据处理系统 |
CN115408160B (zh) * | 2022-09-16 | 2023-05-05 | 湖南胜云光电科技有限公司 | 一种进程监控的数据处理系统 |
CN117371435A (zh) * | 2023-10-09 | 2024-01-09 | 北京睿企信息科技有限公司 | 一种获取热度发生波动的热词的数据处理系统 |
CN117371436A (zh) * | 2023-10-09 | 2024-01-09 | 北京睿企信息科技有限公司 | 一种热度递增的热词获取系统 |
CN117371435B (zh) * | 2023-10-09 | 2024-04-05 | 北京睿企信息科技有限公司 | 一种获取热度发生波动的热词的数据处理系统 |
CN117371436B (zh) * | 2023-10-09 | 2024-04-12 | 北京睿企信息科技有限公司 | 一种热度递增的热词获取系统 |
CN117708439A (zh) * | 2024-02-06 | 2024-03-15 | 每日互动股份有限公司 | 一种目标文本的推送方法、装置、介质及设备 |
CN117708439B (zh) * | 2024-02-06 | 2024-05-31 | 每日互动股份有限公司 | 一种目标文本的推送方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114781379B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114781379B (zh) | 一种获取关键短语的数据处理系统 | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
WO2019196314A1 (zh) | 文本信息相似度匹配方法、装置、计算机设备及存储介质 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN104049755B (zh) | 信息处理方法及装置 | |
WO2020062770A1 (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN101079026B (zh) | 文本相似度、词义相似度计算方法和系统及应用系统 | |
CN111339269B (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN104750798B (zh) | 一种应用程序的推荐方法和装置 | |
JP7139626B2 (ja) | フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN111221962A (zh) | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 | |
CN111832282A (zh) | 融合外部知识的bert模型的微调方法、装置及计算机设备 | |
CN110633464A (zh) | 一种语义识别方法、装置、介质及电子设备 | |
WO2023130687A1 (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
CN109299379A (zh) | 文章推荐方法、装置、存储介质和电子设备 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN114138969A (zh) | 文本处理方法及装置 | |
CN110309252B (zh) | 一种自然语言处理方法及装置 | |
JP2001273293A (ja) | 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体 | |
CN117235108A (zh) | 一种基于图神经网络的nl2sql生成方法 | |
JP6232358B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |