CN111339262A - 一种语句选词方法及装置 - Google Patents

一种语句选词方法及装置 Download PDF

Info

Publication number
CN111339262A
CN111339262A CN202010433108.5A CN202010433108A CN111339262A CN 111339262 A CN111339262 A CN 111339262A CN 202010433108 A CN202010433108 A CN 202010433108A CN 111339262 A CN111339262 A CN 111339262A
Authority
CN
China
Prior art keywords
sentence
word
vector
paraphrase
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010433108.5A
Other languages
English (en)
Other versions
CN111339262B (zh
Inventor
李长亮
汪美玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Software Co Ltd filed Critical Beijing Kingsoft Software Co Ltd
Priority to CN202010433108.5A priority Critical patent/CN111339262B/zh
Publication of CN111339262A publication Critical patent/CN111339262A/zh
Application granted granted Critical
Publication of CN111339262B publication Critical patent/CN111339262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种语句选词方法及装置,其中所述语句选词方法包括:获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词,本申请提供的语句选词方法结合候选词的释义和用法,解决了近义词难以区分的问题,提高了词语推荐的准确率。

Description

一种语句选词方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种语句选词方法及装置、计算设备和计算机可读存储介质。
背景技术
随着计算机技术的发展,语句选词得到了越来越广泛的应用,如在写作过程中,合理运用成语尤其能极大提高文章的表达效果,通过文章上下文在候选成语中选择合适的成语供用用户选择,为用户写作提供便利。
在目前的语句选词过程中,通过成语推荐将文章上下文和候选成语的语义信息相匹配提供较合适的词语供用户选择,在成语的语义信息方面,成语的释义是成语推荐的基本信息,然而近义词或同义词虽然在释义上相似,但是在用法上仍然是有区别的,仅基于成语释义的成语推荐方法难以区分近义词或同义词,在成语推荐时仅基于释义难以区分使用哪个成语更优,当候选词中有近义词或同义词时,还是无法推荐更优的成语,使得表述不够准确。
因此,如何解决上述问题,使推荐的成语更贴近文章上下文,就成为目前亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种语句选词方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种语句选词方法,包括:
获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;
根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;
确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;
选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。
可选的,根据所述待选词语句获取所述待选词语句的待选词语句向量,包括:
对所述待选词语句做分词处理,获得所述待选词语句的词单元集合;
对所述待选词语句的词单元集合中的词单元做嵌入化处理,获得所述待选词语句的词向量集合;
对所述待选词语句的词向量集合中的词向量做池化处理获得所述待选词语句的待选词语句向量。
可选的,对于任意一个所述候选词;
获取每个候选词的释义语句和用法语句集合,包括:
在预设的语料库中获取所述候选词的释义语句和至少一个用法语句。
可选的,在预设的语料库中获取所述候选词的至少一个用法语句,包括:
在预设的语料库中获取预设数量的所述候选词的候选词上下文语句;
利用占位符替换每个候选词上下文语句中的所述候选词,将每个替换后的候选词上下文语句作为所述候选词的用法语句。
可选的,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量,包括:
根据所述候选词的释义语句获取所述候选词的释义语句向量;
根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量;
根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量。
可选的,根据所述候选词的释义语句获取所述候选词的释义语句向量,包括:
对所述候选词的释义语句做分词处理,获得所述候选词的释义语句词单元集合;
对所述释义语句词单元集合中的词单元做嵌入化处理获得释义语句词向量集合;
对所述释义语句词向量集合中的词向量做池化处理获得所述候选词的释义语句向量。
可选的,根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量,包括:
对所述候选词的每个用法语句分别做嵌入化处理获得所述候选词的用法语句子向量集合;
对所述用法语句子向量集合中的用法语句子向量做池化处理获得所述候选词的用法语句向量。
可选的,根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量,包括:
对所述候选词的释义语句向量和用法语句向量做池化处理获得所述候选词的释义用法向量。
根据本申请实施例的第二方面,提供了一种语句选词装置,包括:
第一获取模块,被配置为获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;
第二获取模块,被配置为根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;
确定模块,被配置为确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;
选取模块,被配置为选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述语句选词方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述语句选词方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述语句选词方法的步骤。
本申请实施例中,通过获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词,本申请提供的语句选词方法结合候选词的释义和用法,解决了近义词难以区分的问题,提高了词语推荐的准确率。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的语句选词方法的流程图;
图3是本申请另一实施例提供的语句选词方法的流程图;
图4是本申请实施例提供的语句选词装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
待选词语句:需要在候选词中选择合适的词语填入的语句。
候选词:为待选词语句备选的词语。
释义语句:候选词的释义句子。
用法语句:候选词对应的明确使用方法的语句。
待选词语句向量:待选词语句经过向量化处理后得到的向量。
释义用法语句向量:候选词对应的释义语句和用法语句融合的向量,释义用法向量中即包括候选词的释义信息,也包括候选词对应的历史使用信息。
目标词:在候选词中选择出的适用于待选词语句的词。
BERT模型:一种双向注意力神经网络模型。BERT模型可以通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。
Word2vec:用来产生词向量的相关模型,可以用来映射每个词到一个向量,标识词对词之间的关系。
在本申请中,提供了一种语句选词方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示语句选词方法中的步骤。图2示出了根据本申请一实施例的语句选词方法的流程图,包括步骤202至步骤208。
步骤202:获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合。
待选词语句为需要在候选词中选择合适的词语填入的语句。如待选词语句为“想当初#,可现在怎么就要分手了
Figure 174494DEST_PATH_IMAGE002
”,其中,待选词语句中的“#”为占位符,需要在候选词中选取适合的词语填入待选词语句的占位符处,在实际应用中,占位符以实际情况为准,如使用“&”、“*”、“_”等符号,在此仅对占位符做示意性说明。
候选词是为待选词语句备选的词语,需要在候选词中选取一个目标词作为待选词语句的最佳答案。
释义语句为候选词的释义句子,如候选词“海誓山盟”的释义为“男女相爱时立下的誓言,形容爱情专一永恒”,则“男女相爱时立下的誓言,形容爱情专一永恒”为“海誓山盟”的释义语句。
用法语句集合为候选词在实际应用中明确使用语境的语句的集合,如“海誓山盟”的用法语句为“这就是他们当年立下的#”。用法语句集合中用法语句的数量由预先设置的参数确定。
可选的,对于任意一个所述候选词,获取每个候选词的释义语句和用法语句集合,包括:在预设的语料库中获取所述候选词的释义语句和至少一个用法语句。
预设的语料库可以为现有的公开语料库、词典,也可以为从互联网上的公开信息中提取的信息。在此对语料库的范围不做具体限制。
可选的,在预设的语料库中获取所述候选词的至少一个用法语句,包括:在预设的语料库中获取预设数量的所述候选词的候选词上下文语句;利用占位符替换每个候选词上下文语句中的所述候选词,将每个替换后的候选词上下文语句作为所述候选词的用法语句。
在实际应用中,从预设的语料库中获取每个候选词对应数量的候选词上下文语句,候选词上下文语句为包括候选词在内的完整的语句,再通过占位符替换候选词上下文语句中的候选词,用占位符替换候选词的候选词上下文语句为所述候选词的用法语句,例如,对于“海誓山盟”,在预设的语料库中获取对应的候选词上下文语句为“这就是他们当年立下的海誓山盟”,用占位符“#”替换候选词“海誓山盟”,获得对应的用法语句为“这就是他们当年立下的#”。
在本申请提供的实施例中,以待选词语句为“想当初#,可现在怎么就要分手了
Figure DEST_PATH_IMAGE003
”,候选词为“海誓山盟”和“至死靡它”为例,其中待选词语句中的“#”为占位符,获取待选词语句和所述待选词语句对应的候选词。
在预设的语料库中分别获取每个候选词对应的释义语句和三个用法语句。
对于候选词“海誓山盟”,在预设的语料库中获取“海誓山盟”的释义语句为“男女相爱时立下的誓言,形容爱情专一永恒”;获取“海誓山盟”的候选词上下文语句为“他俩立下海誓山盟,今生今世用不分离”、“这就是他们当年立下的海誓山盟”和“两人一直站在院里,悄声细语说了大半天难舍难分、海誓山盟的话”,将每个候选词上下文中的“海誓山盟”替换为对应的占位符,获得“海誓山盟”的用法语句:“他俩立下#,今生今世用不分离”、“这就是他们当年立下的#”和“两人一直站在院里,悄声细语说了大半天难舍难分、#的话”。
对于“至死靡它”,在预设的语料库中获取“至死靡它”的释义语句为“到死也不变心。形容爱情专一,致死不变”,获取“至死靡它”的候选词上下文语句为“丈夫死后,她便至死靡它,以报答丈夫生前对他的深深爱恋”、“有一种爱让人连枝共冢,有一种爱让人至死靡它”和“不及我心对你至死靡它,挂挂牵牵”,将候选词上下文语句中的“至死靡它”替换为对应的占位符,获得“至死靡它”的用法语句为“丈夫死后,她便#,以报答丈夫生前对他的深深爱恋”、“有一种爱让人连枝共冢,有一种爱让人#”和“不及我心对你#,挂挂牵牵”。
步骤204:根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量。
待选词语句向量为所述待选词语句经过向量化处理后获得的向量,释义用法语句向量为每个候选词的释义语句和用法语句经过向量化处理后获得的向量,获得待选词语句向量和每个候选词对应的释义用法语句向量的方式可以是经过预先训练好的Word2vec做词嵌入处理,Word2vec是用来产生词向量的相关模型,可以用来映射每个词到一个向量,标识词对词之间的关系。也可以是将待选词语句和每个候选词的释义语句、用法语句输入至预先训练好的语句分析模型中进行处理。
可选的,根据所述待选词语句获取所述待选词语句的待选词语句向量,包括:对所述待选词语句做分词处理,获得所述待选词语句的词单元集合;对所述待选词语句的词单元集合中的词单元做嵌入化处理,获得所述待选词语句的词向量集合;对所述待选词语句的词向量集合中的词向量做池化处理获得所述待选词语句的待选词语句向量。
将词向量集合中的词向量做池化获得所述待选词语句的待选词语句向量的方式有很多如:平均池化、最大池化、加和池化等。在本申请中不对池化的具体实施方式做限定。
在本申请提供的实施例中,以用Wrod2vec做词嵌入处理为例,将待选词语句“想当初#,可现在怎么就要分手了
Figure 638974DEST_PATH_IMAGE003
”经过分词处理获得词单元集合“想,当初,#,可,现在,怎么,就,要,分手,了”,通过对每个词做词嵌入,获得每个词对应的328位的向量:(想1,想2,……想328),(当初1,当初2,……当初328),……(了1,了2,……了328),将每个词向量对应的位数相加做池化,获得所述待选词语句的待选词语句向量A(A1,A2……A328),其中,A1=想1+当初1+……+了1,A2=想2+当初2+……+了2,A328=想328+当初328+……+了328
可选的,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量,包括:根据所述候选词的释义语句获取所述候选词的释义语句向量;根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量;根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量。
可选的,根据所述候选词的释义语句获取所述候选词的释义语句向量,包括:对所述候选词的释义语句做分词处理,获得所述候选词的释义语句词单元集合;对所述释义语句词单元集合中的词单元做嵌入化处理获得释义语句词向量集合;对所述释义语句词向量集合中的词向量做池化处理获得所述候选词的释义语句向量。
根据候选词的释义语句获取对应的释义语句向量的方法与上述待选词语句向量的获取方法相同,在此就不再赘述。
在本申请提供的实施例中,沿用上例,对于候选词“海誓山盟”,根据释义语句“男女相爱时立下的誓言,形容爱情专一永恒”通过词嵌入方法,获得328位的释义语句向量B(B1,B2……B328)。
可选的,根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量,包括:对所述候选词的每个用法语句分别做嵌入化处理获得所述候选词的用法语句子向量集合;对所述用法语句子向量集合中的用法语句子向量做池化处理获得所述候选词的用法语句向量。
根据候选词的用法语句获取对应的用法语句向量的方法与上述待选词语句向量的获取方法相同,在此就不再赘述。
在本申请提供的实施例中,沿用上例,对于候选词“海誓山盟”,将用法语句1“他俩立下#,今生今世用不分离”通过词嵌入方法,获得328位的用法语句子向量C(C1,C2……C328),将用法语句2“这就是他们当年立下的#”通过词嵌入方法,获得328位的用法语句子向量D(D1,D2……D328),将用法语句3“两人一直站在院里,悄声细语说了大半天难舍难分、#的话”通过词嵌入方法,获得328位的用法语句子向量E(E1,E2……E328),再分别将每个用法语句子向量做池化,获得候选词“海誓山盟”对应的用法语句向量F(F1,F2……F328),其中,F1=C1+D1+E1,F2=C2+D2+E2,……F328=C328+D328+E328
可选的,根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量,包括:对所述候选词的释义语句向量和用法语句向量做池化处理获得所述候选词的释义用法向量。
在本申请提供的实施例中,沿用上例,对于候选词“海誓山盟”,将候选词“海誓山盟”对应的释义语句向量B(B1,B2……B328)和用法语句向量F(F1,F2……F328)做池化,获得“海誓山盟”对应的释义用法语句向量G(G1,G2……G328e),其中,G1=B1+F1,G2=B2+F2,……G328=B328+F328
对于候选词“至死靡它”采用上述相同的处理方法获得候选词“至死靡它”对应的释义用法语句向量H(H1,H2……H328)。
步骤206:确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度。
在实际应用中,通常使用向量相似度标识两个向量之间的距离,两个向量的距离越近则相似度越大。计算向量相似度的方法有很多,如余弦相似度、欧式距离、皮尔逊相关系数等等,在本申请中不对向量相似度的计算方法做限定。
在本申请提供的实施例中,沿用上例,通过余弦相似度法分别计算每个候选词对应的释义用法向量与待选词语句向量的相似度,对于候选词“海誓山盟”,计算“海誓山盟”的释义用法向量G(G1,G2……G328)与待选词语句向量A(A1,A2……A328)的余弦相似度为M;对于候选词“至死靡它”,计算“至死靡它”的释义用法向量H(H1,H2……H328)与待选词语句向量A(A1,A2……A328)的余弦相似度为N。
步骤208:选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。
向量相似度最大的释义用法向量与待选词语句在向量空间内更近似,因此选取向量相似度最大的释义用法向量对应的候选词为待选词语句的目标词,目标词为在候选词中选取的符合待选词语句的语义的答案。
在本申请提供的实施例中,沿用上例,以M>N为例,选择向量相似度最大的释义用法向量G(G1,G2……G328)对应的候选词“海誓山盟”作为待选词语句的目标词,即为待选词语句“想当初#,可现在怎么就要分手了
Figure DEST_PATH_IMAGE005
”推荐的词语为“海誓山盟”。
本申请提供的语句选词方法,通过根据候选词的释义语句生成释义语句向量,根据候选词的用法语句生成用法语句向量,再根据释义语句向量和用法语句向量生成释义用法语句向量的方式,结合候选词的释义和用法,能更加准确的从近义词或同义词中选择更符合待选词语句上下文语义的词语,解决了成语推荐中近义词或同义词难以区分的问题,提高了成语推荐的准确率。
图3示出了本申请一实施例的语句选词方法,该语句选词方法以BERT模型为基础的语句分析模型为例进行描述,包括步骤302至步骤308。
步骤302:获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合。
在本申请提供的实施例中,获取待选词语句:“有了总体设计,就有了清晰的思路,然后下笔,才能#”;对应的候选词为:“文从字顺”、“水到渠成”和“顺理成章”。
在预设的语料库中获取“文从字顺”的释义语句为“指文章通顺”,用法语句有三条,分别为“这篇文章#,读来朗朗上口”、“在这种情况下写出的文章总会是意到笔随,#,内容与形式都是一气呵成的”、“张琳虽是初学写作,但也写得#”。
在预设的语料库中获取“水到渠成”的释义语句为“指水流到之处便有渠道,比喻有条件之后,事情自然会成功,即功到自然成”,用法语句有三条,分别为“上课认真听讲,下课及时复习,知识掌握起来就是#的事了”、“张明很努力,考上大学是#的事”、“有些事急不得,要到瓜熟蒂落时,才能#”。
在预设的语料库中获得“顺理成章”的释义语句为“形容写文章或做事,顺着条理就能做好”,用法语句有三条,分别为“各位评委都认为他的这篇论文获奖是#的事”、“校长一职#由小王担任”、“他做这件事,可说#,一蹴即至”。
将获取的待选词语句、每个候选词、每个候选词对应的释义语句和用法语句集合输入至预先训练好的语句分析模型中,预先训练好的语句分析模型以BERT模型为基础。
步骤304:将所述待选词语句、每个所述候选词的释义语句和用法语句集合输入至预先训练好的语句分析模型,所述语句分析模型根据所述待选词语句生成对应的待选词语句向量,根据每个所述候选词的释义语句和用法语句集合生成每个候选词对应的释义用法语句向量。
在本申请提供的实施例中,对于待选词语句,所述词语分析模型根据待选词语句“有了总体设计,就有了清晰的思路,然后下笔,才能#”做分词处理得到待选词语句词单元集合[CLS、有、了、总体、设计、就、有、了、清晰、的、思路、然后、下笔、才能、MASK、SEP],对待选词语句词单元集合做嵌入化处理,获得待选词语句向量T(T1,T2,……T768),CLS为句首标志符号,SEP为分句标志符号,MASK为BERT模型中对候选词所处位置进行遮盖的标签。
以候选词“文从字顺”为例,所述词语分析模型对候选词“文从字顺”的释义语句做分词处理得到释义语句词单元集合[CLS、指、文章、通顺、SEP],对第一条用法语句做分词处理得到第一用法语句词单元集合[CLS、这、篇、文章、MASK、读、来、朗朗上口、SEP],对第二条用法语句做分词处理得到第二用法语句词单元集合[CLS、在、这种、情况、下、写、出、的、文章、总、会、是、意到笔随、MASK、内容、与、形式、都、是、一气呵成、的、SEP],对第三条用法语句做分词处理得到第三用法语句词单元集合[CLS、张琳、虽、是、初学、写作、但、也、写得、MASK、SEP]。
所述词语分析模型对候选词“文从字顺”对应的第一用法语句词单元集合、第二用法语句词单元集合、第三用法语句词单元集合做嵌入化处理,分别获得第一用法语句子向量M(M1,M2,……M768)、第二用法语句子向量N(N1,N2,……N768)和第三用法语句子向量P(P1,P2,……P768)。并对三个用法语句子向量做平均池化操作获得用法语句向量Q(Q1,Q2,……Q768),其中,Q1=(M1+N1+P1)/3,Q2=(M2+N2+P2)/3,……,Q768=(M768+N768+P768)/3。
所述词语分析模型对候选词“文从字顺”对应的释义语句词单元集合做嵌入化处理获得释义语句向量为S(S1,S2,……S768)。
所述词语分析模型对候选词 “文从字顺”对应的用法语句向量Q(Q1,Q2,……Q768)和释义语句向量为S(S1,S2,……S768)做平均池化,获得“文从字顺”对应的释义用法向量为X(X1,X2,……X768),其中,X1 =(Q1+S1)/2,X2 =(Q2+S2)/2,……,X768 =(Q768+S768)/2。
同样的,获得候选词“水到渠成”对应的释义用法向量为Y(Y1,Y2,……Y768),候选词“顺理成章”对应的释义用法向量为Z(Z1,Z2,……Z768),获得“水到渠成”对应的释义用法向量和“顺理成章”对应的释义用法向量的方法同“文从字顺”对应的释义用法向量的获取方法,在此就不再赘述。
步骤306:确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度。
计算每个候选向量与待选词语句向量的余弦相似度。
通过余弦相似度计算法确定“文从字顺”对应的释义用法向量X(X1,X2,……X768)与待选词语句向量T(T1,T2,……T768)的向量相似度为0.65。
通过余弦相似度计算法确定“水到渠成”对应的释义用法向量Y(Y1,Y2,……Y768)与待选词语句向量T(T1,T2,……T768)的向量相似度为0.52。
通过余弦相似度计算法确定“顺理成章”对应的释义用法向量为Z(Z1,Z2,……Z768)与待选词语句向量T(T1,T2,……T768)的向量相似度为0.87。
步骤308:选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。
“顺理成章”对应的释义用法向量与待选词语句向量的余弦相似度最高,即选取“顺理成章”作为待选词语句“有了总体设计,就有了清晰的思路,然后下笔,才能#”的推荐成语。
本申请提供的语句选词方法,通过将待选词语句、候选词、候选词对应的释义语句和用法语句集合输入至预先训练好的语句分析模型中,语句分析模型根据输入的每个候选词对应的释义语句和用法语句集合获得每个候选词对应的释义用法语句向量,并分别计算与待选词语句向量的相似度,选取相似度最高的候选词作为目标词作为所述待选词语句的推荐词语,通过结合候选词的释义和用法,能更加准确的从近义词或同义词中选取更加符合待选词语句上下文的词语,解决了成语推荐中近义词或同义词难以区分的问题,提高了成语推荐的准确率。
与上述方法实施例相对应,本申请还提供了语句选词装置实施例,图4示出了本申请一个实施例的语句选词装置的结构示意图。如图4所示,该装置包括:
第一获取模块402,被配置为获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;
第二获取模块404,被配置为根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;
确定模块406,被配置为确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;
选取模块408,被配置为选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。
可选的,所述第二获取模块404,进一步被配置为对所述待选词语句做分词处理,获得所述待选词语句的词单元集合;对所述待选词语句的词单元集合中的词单元做嵌入化处理,获得所述待选词语句的词向量集合;对所述待选词语句的词向量集合中的词向量做池化处理获得所述待选词语句的待选词语句向量。
可选的,对于任意一个所述候选词;
所述第二获取模块404,进一步被配置为在预设的语料库中获取所述候选词的释义语句和至少一个用法语句。
可选的,所述第二获取模块404,进一步被配置为在预设的语料库中获取预设数量的所述候选词的候选词上下文语句;利用占位符替换每个候选词上下文语句中的所述候选词,将每个替换后的候选词上下文语句作为所述候选词的用法语句。
可选的,所述第二获取模块404,进一步被配置为根据所述候选词的释义语句获取所述候选词的释义语句向量;根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量;根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量。
可选的,所述第二获取模块404,进一步被配置为对所述候选词的释义语句做分词处理,获得所述候选词的释义语句词单元集合;对所述释义语句词单元集合中的词单元做嵌入化处理获得释义语句词向量集合;对所述释义语句词向量集合中的词向量做池化处理获得所述候选词的释义语句向量。
可选的,所述第二获取模块404,进一步被配置为对所述候选词的每个用法语句分别做嵌入化处理获得所述候选词的用法语句子向量集合;对所述用法语句子向量集合中的用法语句子向量做池化处理获得所述候选词的用法语句向量。
可选的,所述第二获取模块404,进一步被配置为对所述候选词的释义语句向量和用法语句向量做池化处理获得所述候选词的释义用法向量。
本申请提供的语句选词装置,通过根据候选词的释义语句生成释义语句向量,根据候选词的用法语句生成用法语句向量,再根据释义语句向量和用法语句向量生成释义用法语句向量的方式,结合候选词的释义和用法,能更加准确的从近义词或同义词中选择更符合待选词语句上下文语义的词语,解决了成语推荐中近义词或同义词难以区分的问题,提高了成语推荐的准确率。
上述为本实施例的一种语句选词装置的示意性方案。需要说明的是,该语句选词装置的技术方案与上述的语句选词方法的技术方案属于同一构思,语句选词装置的技术方案未详细描述的细节内容,均可以参见上述语句选词方法的技术方案的描述。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的语句选词方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述语句选词方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的语句选词方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述语句选词方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述语句选词方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (11)

1.一种语句选词方法,其特征在于,包括:
获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;
根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;
确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;
选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。
2.如权利要求1所述的语句选词方法,其特征在于,根据所述待选词语句获取所述待选词语句的待选词语句向量,包括:
对所述待选词语句做分词处理,获得所述待选词语句的词单元集合;
对所述待选词语句的词单元集合中的词单元做嵌入化处理,获得所述待选词语句的词向量集合;
对所述待选词语句的词向量集合中的词向量做池化处理获得所述待选词语句的待选词语句向量。
3.如权利要求1所述的语句选词方法,其特征在于,对于任意一个所述候选词;
获取每个候选词的释义语句和用法语句集合,包括:
在预设的语料库中获取所述候选词的释义语句和至少一个用法语句。
4.如权利要求3所述的语句选词方法,其特征在于,在预设的语料库中获取所述候选词的至少一个用法语句,包括:
在预设的语料库中获取预设数量的所述候选词的候选词上下文语句;
利用占位符替换每个候选词上下文语句中的所述候选词,将每个替换后的候选词上下文语句作为所述候选词的用法语句。
5.如权利要求3所述的语句选词方法,其特征在于,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量,包括:
根据所述候选词的释义语句获取所述候选词的释义语句向量;
根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量;
根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量。
6.如权利要求5所述的语句选词方法,其特征在于,根据所述候选词的释义语句获取所述候选词的释义语句向量,包括:
对所述候选词的释义语句做分词处理,获得所述候选词的释义语句词单元集合;
对所述释义语句词单元集合中的词单元做嵌入化处理获得释义语句词向量集合;
对所述释义语句词向量集合中的词向量做池化处理获得所述候选词的释义语句向量。
7.如权利要求5所述的语句选词方法,其特征在于,根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量,包括:
对所述候选词的每个用法语句分别做嵌入化处理获得所述候选词的用法语句子向量集合;
对所述用法语句子向量集合中的用法语句子向量做池化处理获得所述候选词的用法语句向量。
8.如权利要求5所述的语句选词方法,其特征在于,根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量,包括:
对所述候选词的释义语句向量和用法语句向量做池化处理获得所述候选词的释义用法向量。
9.一种语句选词装置,其特征在于,包括:
第一获取模块,被配置为获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;
第二获取模块,被配置为根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;
确定模块,被配置为确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;
选取模块,被配置为选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。
10.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。
CN202010433108.5A 2020-05-21 2020-05-21 一种语句选词方法及装置 Active CN111339262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010433108.5A CN111339262B (zh) 2020-05-21 2020-05-21 一种语句选词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010433108.5A CN111339262B (zh) 2020-05-21 2020-05-21 一种语句选词方法及装置

Publications (2)

Publication Number Publication Date
CN111339262A true CN111339262A (zh) 2020-06-26
CN111339262B CN111339262B (zh) 2020-08-18

Family

ID=71183032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010433108.5A Active CN111339262B (zh) 2020-05-21 2020-05-21 一种语句选词方法及装置

Country Status (1)

Country Link
CN (1) CN111339262B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146623A (zh) * 2022-07-26 2022-10-04 北京有竹居网络技术有限公司 文本词替换方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030125928A1 (en) * 2001-12-28 2003-07-03 Ki-Young Lee Method for retrieving similar sentence in translation aid system
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN104951469A (zh) * 2014-03-28 2015-09-30 株式会社东芝 优化语料库的方法和装置
CN108959250A (zh) * 2018-06-27 2018-12-07 众安信息技术服务有限公司 一种基于语言模型和词特征的纠错方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030125928A1 (en) * 2001-12-28 2003-07-03 Ki-Young Lee Method for retrieving similar sentence in translation aid system
CN104951469A (zh) * 2014-03-28 2015-09-30 株式会社东芝 优化语料库的方法和装置
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN108959250A (zh) * 2018-06-27 2018-12-07 众安信息技术服务有限公司 一种基于语言模型和词特征的纠错方法及其系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146623A (zh) * 2022-07-26 2022-10-04 北京有竹居网络技术有限公司 文本词替换方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111339262B (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN109977428B (zh) 一种答案获取的方法及装置
US20190377797A1 (en) Mathematical processing method, apparatus and device for text problem, and storage medium
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN107220220A (zh) 用于文本处理的电子设备和方法
CN110096567A (zh) 基于qa知识库推理的多轮对话回复选择方法、系统
CN107862087A (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
CN110347802B (zh) 一种文本分析方法及装置
CN110609886A (zh) 一种文本分析方法及装置
CN115294427A (zh) 一种基于迁移学习的风格化图像描述生成方法
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
CN114462385A (zh) 一种文本分段方法及装置
Ning et al. Learning cross-lingual knowledge with multilingual BLSTM for emphasis detection with limited training data
CN111339262B (zh) 一种语句选词方法及装置
Gabdrakhmanov et al. Ruslan: Russian spoken language corpus for speech synthesis
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN110990556A (zh) 成语推荐方法及装置、成语推荐模型的训练方法及装置
Yang et al. Scicap+: A knowledge augmented dataset to study the challenges of scientific figure captioning
CN113961686A (zh) 问答模型的训练方法及装置、问答方法及装置
JP2020135289A (ja) 質問応答装置、学習装置、質問応答方法及びプログラム
CN113705792A (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
Kagalkar et al. Gradient based key frame extraction for continuous indian sign language gesture recognition and sentence formation in Kannada language: a comparative study of classifiers
CN114077655A (zh) 一种答案抽取模型的训练方法及装置
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant