CN113761114A - 短语生成方法、装置和计算机可读存储介质 - Google Patents

短语生成方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN113761114A
CN113761114A CN202110234468.7A CN202110234468A CN113761114A CN 113761114 A CN113761114 A CN 113761114A CN 202110234468 A CN202110234468 A CN 202110234468A CN 113761114 A CN113761114 A CN 113761114A
Authority
CN
China
Prior art keywords
phrase
phrases
participle
speech
alternative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110234468.7A
Other languages
English (en)
Inventor
朱鹏军
巨荣辉
崔明
葛一迪
刘朋樟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110234468.7A priority Critical patent/CN113761114A/zh
Publication of CN113761114A publication Critical patent/CN113761114A/zh
Priority to PCT/CN2022/077155 priority patent/WO2022183923A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种短语生成方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:针对获取的每个初始短语,确定初始短语中各个分词的词性和顺序,得到初始短语的词性组合,其中,词性组合为按照各个分词的顺序排列的各个分词的词性;根据每种词性组合出现的次数,选取一种或多种词性组合;从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语;根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。

Description

短语生成方法、装置和计算机可读存储介质
技术领域
本公开涉及计算机技术领域,特别涉及一种短语生成方法、装置和计算机可读存储介质。
背景技术
互联网平台上的对象经常使用一些短语来描述。例如“美白保湿”、“户外烧烤”等。这些短语可以作为对象的标签进行外露展示,也可以为搜索侧提供索引,为文本生成等生成项目提供写作素材。例如,可以通过“短语+产品词”组合构建与SKU之间的搜索索引,这样能引导用户搜索相关关键词时,相关产品就能够快速被锁定。
这些短语是两个或多个词构成一定的组合关系,又经常在不同的句子里一起使用的固定片段。目前发明人已知的互联网平台生成短语的方法为人为设置一些词语组合的规则,按照规则将词语进行组合得到短语。
发明内容
发明人发现:人工设置的规则不一定很通用,可能生成大量质量较差的短语,例如短语中的词语完全没有关系,表达的含义不清楚。
本公开所要解决的一个技术问题是:如何提高短语生成的质量和有效率。
根据本公开的一些实施例,提供的一种短语生成方法,包括:针对获取的每个初始短语,确定初始短语中各个分词的词性和顺序,得到初始短语的词性组合,其中,词性组合为按照各个分词的顺序排列的各个分词的词性;根据每种词性组合出现的次数,选取一种或多种词性组合;从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语;根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。
在一些实施例中,根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语包括:针对每个备选短语,根据该备选分词中各个分词分别在预设文本中出现的次数以及各个分词连续在预设文本中出现的次数,确定该备选短语中各个分词的紧密程度;选取紧密程度不低于紧密程度阈值的备选短语,作为生成的短语。
在一些实施例中,针对每个备选短语,该备选短语中各个分词的紧密程度为各个分词连续在预设文本中出现的概率与各个分词分别在预设文本中出现的概率的乘积的比值。
在一些实施例中,根据每种词性组合出现的次数,选取一种或多种词性组合包括:针对每种词性组合,根据该词性组合出现的次数、各个词性组合出现的次数中的最大次数和最小次数,确定该词性组合的权重;选取权重不低于权重阈值的一种或多种词性组合。
在一些实施例中,该方法还包括:在生成的短语中包括具有相同分词且分词的顺序不同的多个短语的情况下,确定多个短语中每个短语的分词序列出现的概率;根据各个短语的分词序列出现的概率,确定各个短语的通顺度;根据各个短语的通顺度,选取一个或多个短语,更新为生成的短语。
在一些实施例中,确定多个短语中每个短语的分词序列出现的概率包括:将每个短语的分词序列输入预先训练的自然语言处理模型,得到每个短语的分词序列出现的概率。
在一些实施例中,根据各个短语的分词序列出现的概率,确定各个短语的通顺度包括:针对每个短语,将该短语的分词序列出现的概率的倒数,按照分词的个数开方,得到该短语的通顺度。
在一些实施例中,该方法还包括:根据训练语料中的各个短语与种子短语的相似性,选取训练语料中的多个短语作为初始短语。
在一些实施例中,根据训练语料中的各个短语与种子短语的相似性,选取训练语料中的多个短语作为初始短语包括:分别确定训练语料中的各个短语和种子短语的向量;根据训练语料中的各个短语的向量和种子短语的向量的相似度,确定训练语料中的各个短语与种子短语的相似性;选取与种子短语的相似性不低于相似性阈值的短语,作为初始短语。
在一些实施例中,该方法还包括:根据训练语料中的各个分词与第一种子分词的相似性,选取训练语料中的多个分词作为初始分词;将各个初始分词分别与第二种子分词进行组合,得到多个种子短语。
根据本公开的另一些实施例,提供的一种短语生成装置,包括:词性组合确定模块,用于针对获取的每个初始短语,确定初始短语中各个分词的词性和顺序,得到初始短语的词性组合,其中,词性组合为按照各个分词的顺序排列的各个分词的词性;词性组合选取模块,用于根据每种词性组合出现的次数,选取一种或多种词性组合;备选短语生成模块,用于从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语;短语生成模块,用于根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。
根据本公开的又一些实施例,提供的一种短语生成装置,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的短语生成方法。
根据本公开的再一些实施例,提供的一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的短语生成方法。
本公开中首先获取初始短语,确定初始短语的词性组合,进而根据词性组合出现的次数,选取一种或多种词性组合。根据选取的词性组合从备选文本中生成备选短语。进一步基于备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。本公开的方法可以基于少量的初始短语,从备选文本中选出大量的备选短语,并且这些备选短语的词性组合是更加通用和更加符合逻辑的,进一步根据备选短语中分词的紧密程度进行筛选,使得最终生成的短语中的分词的紧密程度更高,避免完全没有关系的分词组成短语,提高短语生成的质量和有效率。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的短语生成方法的流程示意图。
图2示出本公开的另一些实施例的短语生成方法的流程示意图。
图3示出本公开的又一些实施例的短语生成方法的流程示意图。
图4示出本公开的一些实施例的短语生成装置的结构示意图。
图5示出本公开的另一些实施例的短语生成装置的结构示意图。
图6示出本公开的又一些实施例的短语生成装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种短语生成方法,下面结合图1~3进行描述。
图1为本公开短语生成方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S108。
在步骤S102中,针对获取的每个初始短语,确定初始短语中各个分词的词性和顺序,得到初始短语的词性组合。
首先获取多个初始短语,这些初始短语可以是基于少量种子词语生成的,后续实施例中将对初始短语的生成方法进行描述。此外,初始短语也可以是预先设置的。初始短语可以是表示预设维度的短语,例如,时间维度、食品维度或化妆品维度等。例如,时间维度的短语可以包括描述时间的词语,例如春节、中秋节等。可以根据实际需求选取不同维度的初始短语,这样后续生成的短语是属于与初始短语相同维度的短语。
在一些实施例中,针对每个初始短语进行分词和词性标注,得到初始短语中各个分词的词性,按照各个分词的顺序将各个分词的词性进行组合,得到初始短语的词性组合。即词性组合为按照各个分词的顺序排列的各个分词的词性。可以采用现有的自然语言处理(NLP)算法对各个初始短语进行分词和词性标注。词性标注例如为确定分词为名词、动词等。如表1所示为一些短语的词性组合的实施例。
表1
Figure BDA0002960122870000051
如表1所示,t表示时间词,v表示动词,n表示名词,r表示代词,a表示形容词。例如,中秋节送礼的词性组合为t-v,即时间词-动词。
在步骤S104中,根据每种词性组合出现的次数,选取一种或多种词性组合。
词性组合出现的次数越多,则被选取的概率越高。在一些实施例中,针对每种词性组合,根据该词性组合出现的次数、各个词性组合出现的次数中的最大次数和最小次数,确定该词性组合的权重;选取权重不低于权重阈值的一种或多种词性组合。例如,采用以下公式确定每个词性组合的权重。
Figure BDA0002960122870000061
公式(1)中,xi表示词性组合i出现的次数或频次,i为正整数,xmax表示各个词性组合出现的次数中的最大次数,xmin表示各个词性组合出现的次数中的最小次数。如表2所示为各种词性组合出现的次数和权重。
表2
词性组合 次数 权重
1 t-v 150 0.99
2 t-n 138 0.93
3 t-a 109 0.886
4 v-n-r-n-a 26 0.45
5
例如,可以设定权重阈值为0.35,选取权重高于0.35的词性组合。可以根据实际需求设置权重阈值,权重阈值设置的越高,选取的词性组合出现的概率越高,即该词性组合越通用,后续生成的短语也越通用,有效率越高。权重阈值设置的越低,选取的词性组合数量越多,最终生成的短语数量也越多,可以涵盖更多类型更丰富的短语。
在步骤S106中,从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语。
首先获取备选文本,备选文本可以是网络平台的标题、搜索文本或者评论文章等。对每个备选文本进行分词和词性标注,得到每个备选文本中的分词和分词的词性。按照选取的词性组合,对备选文本中的每个分词和词性进行遍历,组成备选短语,得到备选短语集合。例如,基于产品标题“新年礼盒新年礼物春节礼盒年货高端礼盒装企业团购定制logo送礼年货批发年货大礼包定制坚果礼盒定制D款-双层果盘提篮【养生礼盒】礼盒”,可以得到备选短语:“新年定制礼盒(t-v-n)、春节礼盒(a-n)、春节高端礼盒(t-a-n)、年货批发(n-v)、养生企业(n-v)、养生礼盒(v-n)、新年大礼包(t-n)、定制企业(v-n)…”等等。
在步骤S108中,根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。
备选短语中各个分词的紧密程度用于表示各个分词的相关性或相互依赖程度,各个分词的相关性或相互依赖程度越高,则紧密程度越高。在一些实施例中,针对每个备选短语,根据该备选分词中各个分词分别在预设文本中出现的次数以及各个分词连续在预设文本中出现的次数,确定该备选短语中各个分词的紧密程度;选取紧密程度不低于紧密程度阈值的备选短语,作为生成的短语。
预设文本可以是筛选出的优质文本,例如,信用度高于信用度阈值的用户提供的评论文本,好友高于好友阈值的用户提供的评论文本,或者关注用户高于关注阈值的用户提供的评论文本,或者,评论数量高于评论数量阈值或者浏览数量高于浏览数量阈值的评论文本,或者,搜索数量高于搜索数量阈值的搜索文本、标题,或者,浏览数量高于浏览数量阈值的标题等。预设文本更加符合用户的行为习惯,基于预设文本来评估备选短语的各个分词的紧密程度,更加准确。
针对每个备选短语,各个分词分别在预设文本中出现的次数越少,各个分词连续在预设文本中出现的次数越多,则各个分词的紧密程度越高。在一些实施例中,针对每个备选短语,针对每个备选短语,该备选短语中各个分词的紧密程度为各个分词连续在预设文本中出现的概率与各个分词分别在预设文本中出现的概率的乘积的比值。各个分词连续在预设文本中出现的概率或次数可以不区分各个分词的先后顺序。例如,“春节礼盒”出现1次,“礼盒春节”出现1次,则“春节”和“礼盒”连续出现的次数为2次。备选短语中各个分词的紧密程度可以采用以下公式表示。
Figure BDA0002960122870000071
公式(2)中,P(u,v,…)表示备选短语中各个分词连续在预设文本中出现的概率,P(u),P(v)…分别表示每个分词在预设文本中出现的概率。
例如,预设文本中出现100万个词(包含重复),其中,“春节”出现了8万次、礼盒”出现了6.5万次,“春节和礼盒”共同出现了5万次。那么就可以分别计算得到春节、礼盒、春节礼盒的概率期望值:P(春节)=0.08,P(礼盒)=0.65,P(春节,礼盒)=0.05,则基于公式(2),得到“春节”和“礼盒”的紧密程度
Figure BDA0002960122870000081
上述实施例的方法中首先获取初始短语,确定初始短语的词性组合,进而根据词性组合出现的次数,选取一种或多种词性组合。根据选取的词性组合从备选文本中生成备选短语。进一步基于备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。上述实施例的方法可以基于少量的初始短语,从备选文本中选出大量的备选短语,并且这些备选短语的词性组合是更加通用和更加符合逻辑的,进一步根据备选短语中分词的紧密程度进行筛选,使得最终生成的短语中的分词的紧密程度更高,避免完全没有关系的分词组成短语,提高短语生成的质量和有效率。
在一些实施例中,根据生成的短语生成对象的标题、搜索的索引中至少一项。
上述实施例的方法生成的短语更加合理,提高了质量和有效率,为进一步提高短语的质量和有效率,本公开进一步对生成的短语进行筛选,下面结合图2描述本公开短语生成方法的另一些实施例。
图2为本公开短语生成方法另一些实施例的流程图。如图2所示,该实施例的方法在步骤S108之后,还包括:步骤S202~S206。
在步骤S202中,在生成的短语中包括具有相同分词且分词的顺序不同的多个短语的情况下,确定多个短语中每个短语的分词序列出现的概率。
例如,“春节礼盒”,“礼盒春节”属于具有相同分词且分词顺序不同的两个短语,基于前述实施例的方法,两者对应的紧密程度是相同的,但是“春节礼盒”属于更加通顺,质量更高的短语。因此,执行后续步骤筛选质量更高的短语。例如,将每个短语的分词序列输入预先训练的自然语言处理模型,得到每个短语的分词序列出现的概率。自然语言处理模型例如为N-Gram模型,可以采用现有模型,在此不再赘述。自然语言处理模型可以预先使用互联网平台的语料进行训练。
在步骤S204中,根据各个短语的分词序列出现的概率,确定各个短语的通顺度。
短语的分词序列出现的概率越高,则该短语的通顺度越高。例如,针对每个短语,将该短语的分词序列出现的概率的倒数,按照分词的个数开方,得到该短语的通顺度。可以采用以下公式确定短语的通顺度。
Figure BDA0002960122870000091
公式(3)中P(w1w2…wN)表示短语的分词序列出现的概率。
在步骤S206中,根据各个短语的通顺度,选取一个或多个短语,更新为生成的短语。
例如,选取各个短语中通顺度最高的一个短语更新为生成的短语,或者,选取通顺度高于通顺度阈值的一个或多个短语更新为生成的短语。
上述实施例的方法,选取通顺度更高的短语进一步提高了短语的生成质量和有效率。
下面结合图3描述前述实施例中的初始短语如何生成。
图3为本公开短语生成方法又一些实施例的流程图。如图3所示,该实施例的方法包括:步骤S302~S306。
在步骤S302中,根据训练语料中的各个分词与第一种子分词的相似性,选取训练语料中的多个分词作为初始分词。
首先可以对训练语料进行预处理,训练预料可以是从互联网平台获取的各种语料,也可以是从开源的语料库中获取的。预处理包括主要进行繁体转简体、大写转小写、删除特殊字符(如@、#、&等字符)等。对预处理后的训练语料进行分词和词性标注等操作。前述实施例中的备选文本和预设文本也可进行相似的预处理过程,分词和词性标注也可以预先执行。
初始短语可以表示预设维度的短语,第一种子分词也可以是表示预设维度的种子分词。以时间维度为例,第一种子分词例如为妇女节、儿童节、端午节、纪念日等等。
在一些实施例中,分别确定训练语料中的各个分词与第一种子分词的相似性,选取相似度不低于分词相似度阈值的分词作为初始分词。例如,分别确定训练语料中的各个分词和第一种子分词的向量;根据训练语料中的各个分词的向量和第一种子分词的向量的相似度,确定训练语料中的各个分词和第一种子分词的相似性;选取与第一种子分词的相似性不低于分词相似度阈值的分词,作为初始分词。
可以将训练语料中的各个分词和第一种子分词输入预先训练的词向量模型,得到个分词的向量和第一种子分词的向量。词向量模型可可以采用现有模型,例如Bert模型等,不限于所举示例。各个分词的向量和第一种子分词的向量的相似度可以采用余弦相似度进行计算。例如采用以下公式计算每个分词和第一种子分词的相似性。
Figure BDA0002960122870000101
公式(4)中,si表示第i个分词的向量,i为正整数,sj表示第一种子分词的向量。例如,根据上述方法可以得到与第一种子分词“中秋节”相似的分词,如表3所示。
表3
Id 相似词 相似度
1 端午节 0.87729775
2 国庆节 0.79689615
3 重阳节 0.78241974
4 七夕节 0.73759442
5 ….. ……
在步骤S304中,将各个初始分词分别与第二种子分词进行组合,得到多个种子短语。
第二种子分词可以有多个,可以分别将各个初始分词分别与各个第二种子分词进行组合,得到多个种子短语。
在步骤S306中,根据训练语料中的各个短语与种子短语的相似性,选取训练语料中的多个短语作为初始短语。
在一些实施例中,分别确定训练语料中的各个短语和种子短语的向量;根据训练语料中的各个短语的向量和种子短语的向量的相似度,确定训练语料中的各个短语与种子短语的相似性;选取与种子短语的相似性不低于相似性阈值的短语,作为初始短语。各个短语的向量和种子短语的向量可以利用词向量模型确定,各个短语与种子短语的相似性的确定方法可以与各个分词和第一种子分词的相似性的确定方法相同或相似。
上述实施例的方法可以基于少量的第一种子分词和第二种子分词,从训练语料中挖掘出大量的初始短语,用于后续生成短语,提高短语的质量和丰富性。
本公开还提供一种短语生成装置,下面结合图5进行描述。
图4为本公开短语生成装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:词性组合确定模块410,词性组合选取模块420,备选短语生成模块430,短语生成模块440。
词性组合确定模块410用于针对获取的每个初始短语,确定初始短语中各个分词的词性和顺序,得到初始短语的词性组合,其中,词性组合为按照各个分词的顺序排列的各个分词的词性。
在一些实施例中,词性组合确定模块410用于根据训练语料中的各个短语与种子短语的相似性,选取训练语料中的多个短语作为初始短语。
在一些实施例中,词性组合确定模块410用于分别确定训练语料中的各个短语和种子短语的向量;根据训练语料中的各个短语的向量和种子短语的向量的相似度,确定训练语料中的各个短语与种子短语的相似性;选取与种子短语的相似性不低于相似性阈值的短语,作为初始短语。
在一些实施例中,词性组合确定模块410用于根据训练语料中的各个分词与第一种子分词的相似性,选取训练语料中的多个分词作为初始分词;将各个初始分词分别与第二种子分词进行组合,得到多个种子短语。
词性组合选取模块420用于根据每种词性组合出现的次数,选取一种或多种词性组合。
在一些实施例中,词性组合选取模块420用于针对每种词性组合,根据该词性组合出现的次数、各个词性组合出现的次数中的最大次数和最小次数,确定该词性组合的权重;选取权重不低于权重阈值的一种或多种词性组合。
备选短语生成模块430用于从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语。
短语生成模块440用于根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。
在一些实施例中,短语生成模块440用于针对每个备选短语,根据该备选分词中各个分词分别在预设文本中出现的次数以及各个分词连续在预设文本中出现的次数,确定该备选短语中各个分词的紧密程度;选取紧密程度不低于紧密程度阈值的备选短语,作为生成的短语。
在一些实施例中,针对每个备选短语,该备选短语中各个分词的紧密程度为各个分词连续在预设文本中出现的概率与各个分词分别在预设文本中出现的概率的乘积的比值。
在一些实施例中,短语生成模块440还用于在生成的短语中包括具有相同分词且分词的顺序不同的多个短语的情况下,确定多个短语中每个短语的分词序列出现的概率;根据各个短语的分词序列出现的概率,确定各个短语的通顺度;根据各个短语的通顺度,选取一个或多个短语,更新为生成的短语。
在一些实施例中,短语生成模块440用于将每个短语的分词序列输入预先训练的自然语言处理模型,得到每个短语的分词序列出现的概率。
在一些实施例中,短语生成模块440用于针对每个短语,将该短语的分词序列出现的概率的倒数,按照分词的个数开方,得到该短语的通顺度。
本公开的实施例中的短语生成装置可各由各种计算设备或计算机系统来实现,下面结合图5以及图6进行描述。
图5为本公开短语生成装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的短语生成方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6为本公开短语生成装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (13)

1.一种短语生成方法,包括:
针对获取的每个初始短语,确定所述初始短语中各个分词的词性和顺序,得到所述初始短语的词性组合,其中,所述词性组合为按照各个分词的顺序排列的各个分词的词性;
根据每种词性组合出现的次数,选取一种或多种词性组合;
从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语;
根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。
2.根据权利要求1所述的短语生成方法,其中,所述根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语包括:
针对每个备选短语,根据该备选分词中各个分词分别在预设文本中出现的次数以及各个分词连续在预设文本中出现的次数,确定该备选短语中各个分词的紧密程度;
选取紧密程度不低于紧密程度阈值的备选短语,作为生成的短语。
3.根据权利要求2所述的短语生成方法,其中,针对每个备选短语,该备选短语中各个分词的紧密程度为各个分词连续在预设文本中出现的概率与各个分词分别在预设文本中出现的概率的乘积的比值。
4.根据权利要求1所述的短语生成方法,其中,所述根据每种词性组合出现的次数,选取一种或多种词性组合包括:
针对每种词性组合,根据该词性组合出现的次数、各个词性组合出现的次数中的最大次数和最小次数,确定该词性组合的权重;
选取权重不低于权重阈值的一种或多种词性组合。
5.根据权利要求1所述的短语生成方法,还包括:
在生成的短语中包括具有相同分词且分词的顺序不同的多个短语的情况下,确定多个短语中每个短语的分词序列出现的概率;
根据各个短语的分词序列出现的概率,确定各个短语的通顺度;
根据各个短语的通顺度,选取一个或多个短语,更新为生成的短语。
6.根据权利要求5所述的短语生成方法,其中,所述确定多个短语中每个短语的分词序列出现的概率包括:
将每个短语的分词序列输入预先训练的自然语言处理模型,得到每个短语的分词序列出现的概率。
7.根据权利要求5所述的短语生成方法,其中,所述根据各个短语的分词序列出现的概率,确定各个短语的通顺度包括:
针对每个短语,将该短语的分词序列出现的概率的倒数,按照分词的个数开方,得到该短语的通顺度。
8.根据权利要求1所述的短语生成方法,还包括:
根据训练语料中的各个短语与种子短语的相似性,选取训练语料中的多个短语作为初始短语。
9.根据权利要求8所述的短语生成方法,其中,所述根据训练语料中的各个短语与种子短语的相似性,选取训练语料中的多个短语作为初始短语包括:
分别确定训练语料中的各个短语和种子短语的向量;
根据训练语料中的各个短语的向量和所述种子短语的向量的相似度,确定训练语料中的各个短语与种子短语的相似性;
选取与种子短语的相似性不低于相似性阈值的短语,作为初始短语。
10.根据权利要求8所述的短语生成方法,还包括:
根据训练语料中的各个分词与第一种子分词的相似性,选取训练语料中的多个分词作为初始分词;
将各个初始分词分别与第二种子分词进行组合,得到多个种子短语。
11.一种短语生成装置,包括:
词性组合确定模块,用于针对获取的每个初始短语,确定所述初始短语中各个分词的词性和顺序,得到所述初始短语的词性组合,其中,所述词性组合为按照各个分词的顺序排列的各个分词的词性;
词性组合选取模块,用于根据每种词性组合出现的次数,选取一种或多种词性组合;
备选短语生成模块,用于从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语;
短语生成模块,用于根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。
12.一种短语生成装置,包括:
处理器;以及
耦接至所述处理器的存储器,用于存储指令,所述指令被所述处理器执行时,使所述处理器执行如权利要求1-10任一项所述的短语生成方法。
13.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。
CN202110234468.7A 2021-03-03 2021-03-03 短语生成方法、装置和计算机可读存储介质 Pending CN113761114A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110234468.7A CN113761114A (zh) 2021-03-03 2021-03-03 短语生成方法、装置和计算机可读存储介质
PCT/CN2022/077155 WO2022183923A1 (zh) 2021-03-03 2022-02-22 短语生成方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110234468.7A CN113761114A (zh) 2021-03-03 2021-03-03 短语生成方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113761114A true CN113761114A (zh) 2021-12-07

Family

ID=78786698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110234468.7A Pending CN113761114A (zh) 2021-03-03 2021-03-03 短语生成方法、装置和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN113761114A (zh)
WO (1) WO2022183923A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818655A (zh) * 2022-05-13 2022-07-29 平安科技(深圳)有限公司 随机文本生成方法、装置、设备及存储介质
WO2022183923A1 (zh) * 2021-03-03 2022-09-09 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976320B (zh) * 2023-09-22 2023-12-15 湖南财信数字科技有限公司 机构简称提取方法、装置、计算机设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330331A (ja) * 1996-06-10 1997-12-22 Nippon Telegr & Teleph Corp <Ntt> 成句検出方法
CN108108379B (zh) * 2016-11-25 2021-05-28 北京国双科技有限公司 关键词拓词的方法及装置
US11507743B2 (en) * 2017-02-28 2022-11-22 Nice Ltd. System and method for automatic key phrase extraction rule generation
CN110162781A (zh) * 2019-04-09 2019-08-23 国金涌富资产管理有限公司 一种金融文本主观句自动识别方法
CN111783450B (zh) * 2020-06-29 2023-04-18 中国平安人寿保险股份有限公司 语料文本中的短语提取方法、装置、存储介质及电子设备
CN113761114A (zh) * 2021-03-03 2021-12-07 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022183923A1 (zh) * 2021-03-03 2022-09-09 北京沃东天骏信息技术有限公司 短语生成方法、装置和计算机可读存储介质
CN114818655A (zh) * 2022-05-13 2022-07-29 平安科技(深圳)有限公司 随机文本生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2022183923A1 (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
Pranckevičius et al. Application of logistic regression with part-of-the-speech tagging for multi-class text classification
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
US10366117B2 (en) Computer-implemented systems and methods for taxonomy development
CN101782898A (zh) 一种情感词倾向性的分析方法
CN107870901A (zh) 从翻译源原文生成相似文的方法、程序、装置以及系统
WO2019133506A1 (en) Intelligent routing services and systems
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN107122404A (zh) 一种用户意图数据提取方法和装置
Gunawan et al. Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia
CN114912425A (zh) 演示文稿生成方法及装置
CN107239455B (zh) 核心词识别方法及装置
CN109299459B (zh) 一种单语义监督的词向量训练方法及装置
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
CN113095723A (zh) 优惠券的推荐方法及装置
CN115309995A (zh) 一种基于需求文本的科技资源推送方法和装置
CN115048523A (zh) 文本分类方法、装置、设备以及存储介质
WO2022246162A1 (en) Content generation using target content derived modeling and unsupervised language modeling
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP3889010B2 (ja) 語句分類システム、語句分類方法、および語句分類プログラム
Widyassari et al. The 7-Phases Preprocessing Based On Extractive Text Summarization
CN113378015A (zh) 搜索方法、装置、电子设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination