CN109033427B - 股票的筛选方法及装置、计算机设备及可读存储介质 - Google Patents

股票的筛选方法及装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN109033427B
CN109033427B CN201810910344.4A CN201810910344A CN109033427B CN 109033427 B CN109033427 B CN 109033427B CN 201810910344 A CN201810910344 A CN 201810910344A CN 109033427 B CN109033427 B CN 109033427B
Authority
CN
China
Prior art keywords
entity
stock
name
word
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810910344.4A
Other languages
English (en)
Other versions
CN109033427A (zh
Inventor
邓江东
李磊
马维英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201810910344.4A priority Critical patent/CN109033427B/zh
Publication of CN109033427A publication Critical patent/CN109033427A/zh
Application granted granted Critical
Publication of CN109033427B publication Critical patent/CN109033427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种股票的筛选方法,该筛选方法包括:获取股票查询信息;对股票查询信息进行分词,得到第一词序列;对第一词序列进行命名实体识别,得到第一实体名,第一实体名与股票信息相关;根据预设的实体语义关系对第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,预设的实体语义关系包括第一实体名、产品名称及上市公司股票代码的对应关系。上述股票的筛选方法解决了用户输入产品的实际名称或语义相近的词进行自选股票时,无法查找到用户所想要的上市公司股票名称及上市公司股票代码的问题,提高了股票匹配的准确性。本发明还公开了一种股票的筛选装置、计算机设备以及计算机可读存储介质。

Description

股票的筛选方法及装置、计算机设备及可读存储介质
技术领域
本发明涉及信息处理技术领域,特别是涉及一种股票的筛选方法及装置、计算机设备以及计算机可读存储介质。
背景技术
在日常生活中,大多数用户在自选股票进行投资时,若是发现某一个行业近期在市场上被追捧,那么用户会对该行业里的上市公司的投资欲望会增大,从而会去购买这些行业中的上市公司股票来进行投资;或者某个上市公司研发产品的知名度和市场占有率的稳步增长激发了用户投资的欲望,同样会使得用户去购买该上市公司的股票。
然而一个上市公司旗下有很多子公司,且每个子公司旗下推出了很多的产品。通常情况下,用户会感觉自己了解到的产品名称其实就是一家上市公司名称,从而在进行自选股票时,用户会输入该产品的实际名称或语义相近的词来自选股票,例如支付宝是阿里巴巴集团旗下的一款第三方支付APP,用户认为支付宝就是股票名称,在自选股票搜索框里输入支付宝的时候,却无法匹配出对应的阿里巴巴的股票代码。
因此,用户采用上述方法通过输入产品名称来自选股票时,无法查找到其所需的上市公司股票代码,导致股票的匹配准确性较低。
发明内容
基于此,有必要针对上述股票匹配的准确性较低问题,提供一种股票匹配的准确性高的股票的筛选方法及装置、计算机设备以及计算机可读存储介质。
一种股票的筛选方法,所述筛选方法包括:
获取股票查询信息;
对所述股票查询信息进行分词,得到第一词序列,所述第一词序列包括至少一个分词词语;
对所述第一词序列进行命名实体识别,得到第一实体名,所述第一实体名与所述股票信息相关;
根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,所述预设的实体语义关系包括第一实体名、产品名称及上市公司股票代码的对应关系。
在其中一个实施例中,所述根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码的步骤之前包括:
获取待处理文本,所述待处理文本包括与股票信息相关的样本数据;
对所述待处理文本进行分词,得到训练词序列,所述训练词序列包括至少一个分词词语;
对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名,所述训练实体名与所述股票信息相关;
获取所述训练实体名对应的训练实体向量,根据所述训练实体向量和依存语法对不同的训练实体名进行语义分析,获得所述预设的实体语义关系。
在其中一个实施例中,所述预设的实体语义关系还包括上市公司所属行业与上市公司股票代码的对应关系、上市公司与所述上市公司所属行业中与所述上市公司有关联的其它上市公司股票代码的对应关系的一种或多种。
在其中一个实施例中,所述对所述待处理文本进行分词,得到训练词序列的步骤包括:
对所述待处理文本进行分词,得到初始词序列;
对所述初始词序列进行序列标注,得到标注词序列;
对所述标注词序列进行离线处理,得到训练词序列。
在其中一个实施例中,所述对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名的步骤包括:
对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到第二实体名及与所述第二实体名对应的第二实体向量;
根据所述第二实体向量对所述第二实体名进行同义词或近义词扩展,得到扩充实体名;
将所述第二实体名与所述扩充实体名合并,得到训练实体名。
在其中一个实施例中,所述将所述第二实体名与所述扩充实体名合并,得到训练实体名的步骤包括:
将所述第二实体名与所述扩充实体名合并,得到第三实体名;
获取非法实体库,将所述第三实体名在所述非法实体库中进行匹配,去除所述第三实体名中的非法实体名,得到所述训练实体名。
在其中一个实施例中,所述将所述第一实体名根据预设的实体语义关系进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码的步骤包括:
将所述第一实体名根据预设的实体语义关系进行匹配,得到与所述第一实体名匹配的上市公司所属行业以及所述行业对应的上市公司股票代码、与所述第一实体名匹配的上市公司以及所述上市公司与所述上市公司所属行业中与所述上市公司有关联的其它上市公司股票代码的一种或多种。
一种股票的筛选装置,所述筛选装置包括:
获取模块,用于获取股票查询信息;
分词模块,用于对所述股票查询信息进行分词,得到第一词序列,所述第一词序列包括至少一个分词词语;
识别模块,用于对所述第一词序列进行命名实体识别,得到第一实体名,所述第一实体名与股票信息相关;
匹配模块,用于根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,所述预设的实体语义关系包括第一实体名、产品名称及上市公司股票代码的对应关系。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述股票的筛选方法及装置、计算机设备以及计算机可读存储介质,通过对用户输入的股票咨询信息进行分词以及命名实体识别,得到一组与股票信息相关的第一实体名,将第一实体名与预设的实体语义关系进行匹配,且该预设的实体语义关系包括用户知晓的产品名称与上市公司股票代码的对应关系,从而用户便可得到与该产品名称所对应的上市公司股票代码。该股票的筛选方法能够根据用户需求筛选出用户需要的上市公司股票,解决了用户输入产品的实际名称或语义相近的词进行自选股票时,无法查找到用户所想要的上市公司股票名称及上市公司股票代码的问题,提高了股票匹配的准确性。
附图说明
图1为一实施例中股票的筛选方法的应用环境图;
图2为一实施例中股票的筛选方法的流程示意图;
图3为一实施例中股票的筛选方法的流程示意图;
图4为一实施例中股票的筛选方法的流程示意图;
图5为一实施例中股票的筛选方法的流程示意图;
图6为一实施例中股票的筛选装置的结构框图;
图7为一实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的股票的筛选方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。该服务器104可以提供相应的面向用户的网页平台,并且可以将产品名称对应的上市公司股票代码发送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
请参阅图2,本发明一实施例涉及用户通过输入股票查询信息获得产品名称对应的上市公司股票代码的具体过程。在本实施例中,提供了一种股票的筛选方法,以该方法应用于图1中的服务器为例进行说明,该筛选方法包括如下步骤:
步骤S202,获取股票查询信息。
具体地,用户可通过用户界面输入股票查询信息,股票查询信息包括与股票相关的信息以及与股票无关的信息的一种或多种。可选地,用户可选择文本输入或语音输入。服务器通常从用户使用的客户端获取该股票查询信息。可选地,将上述股票查询信息都转变为文本信息,以便后续通过自然语言处理技术对所述股票查询信息进行处理。
步骤S204,对股票查询信息进行分词,得到第一词序列,所述第一词序列包括至少一个分词词语。
具体地,分词是将连续的字序按照一定的规范重新组合成词序列的过程。服务器对股票查询信息进行分词操作,得到第一词序列,其中,第一词序列可以为多个且每一条第一词序列包括多个分词词语。比如,对于“a产品对应的上市公司股票代码是什么”,这样一句话,服务器通过对其分词,得到的第一词序列是“a产品/对应的/上市公司/股票代码/是/什么/”。可以理解,上述分词操作可利用分词模型进行划分。
步骤S206,对第一词序列进行命名实体识别,得到第一实体名,所述第一实体名与股票信息相关。
具体地,命名实体识别又称为“专名识别”,是指识别文本中具有特定意义的实体。在本实施例中,是指识别文本中具有金融意义的实体名,尤其是与股票信息相关的实体名,比如实体名可包括上市公司名、上市公司负责人名或股东名。可选地通过采用标签的方式识别出不同意义的实体,从而使不同意义的实体附带有不同的标签。其中,标签用于标识不同的金融词语类别。可选地,标签可包括上市公司名、上市公司负责人、个人股东、机构股东、上市公司商品名等。
下面以一个简单易懂的例子对上述命名实体识别的过程进行解释说明,应该清楚,该例子并非是对本申请技术方案的限定。比如,依旧采用上述分词操作的例子,分词后得到第一词序列为“a产品/对应的/上市公司/股票代码/是/什么/”。接着,服务器对“a产品/对应的/上市公司/股票代码/是/什么/”进行命名实体识别,具体为通过预设的标签来对上述分词词语进行命名实体识别,包括:由标签“上市公司商品名”对应实体名“a产品”,由标签“上市公司名”对应实体名“上市公司”。实体名“a产品”与实体名“上市公司”构成所述第一实体名。
服务器采用上述标签对第一词序列进行分类与识别,即使用户输入的股票查询信息再复杂,也能够通过标签识别出来,从而提高识别效率,且保证识别出的第一实体名与股票信息的相关性。比如,用上市公司标签标识“上市公司A”,如果“上市公司A”变为“上市公司B”,虽然词语变了,但仍然可以用上市公司标签标识出“上市公司B”。
步骤S208,根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,所述预设的实体语义关系包括第一实体名、产品名称及上市公司股票代码的对应关系。
具体地,在服务器中会预先存储有预设的实体语义关系,该实体语义关系可包括第一实体名、产品名称及上市公司股票代码的对应关系,从而服务器将第一实体名与预设的实体语义关系进行匹配时,若判断出预设的实体语义关系中包括与第一实体名匹配的预设的产品名称,则将该产品名称对应的上市公司股票代码输出。
比如,在预设的实体语义关系中,命名实体“产品a”与“上市公司A”之间存在产品名称与上市公司的实体语义关系。若第一实体名中包括“产品a”,服务器将“产品a”与预设的实体语义关系进行匹配,则可以得到“上市公司A”的股票代码。
上述股票的筛选方法,服务器通过对用户输入的股票咨询信息进行分词以及命名实体识别,得到一组与股票信息相关的第一实体名,将第一实体名与预设的实体语义关系进行匹配,且该预设的实体语义关系包括用户知晓的产品名称与上市公司股票代码的对应关系,从而用户便可得到与该产品名称所对应的上市公司股票代码。该股票的筛选方法解决了用户输入产品的实际名称或语义相近的词进行自选股票时,无法查找到用户所想要的上市公司股票名称及上市公司股票代码的问题,提高了股票匹配的准确性。
进一步地,在一个实施例中,提供了当用户输入错误信息时服务器的应对方式。其中,步骤S206包括:
步骤S2062,对第一词序列进行命名实体识别,得到初始实体名;
步骤S2064,若判断初始实体名中存在错误实体名时,则对该错误实体名进行纠错,得到修正实体名;
步骤S2066,将修正实体名替代初始实体名中的错误实体名,得到第一实体名。
具体地,用户在输入股票查询信息时,可能会输入错误的股票查询信息,进而服务器在对该错误的股票查询信息进行分词以及命名实体识别时,可能会得到错误实体名,该错误实体名可能是错字、少字或多字造成的。此时,服务器会根据实体库中的命名实体对初始实体名进行判断,若服务器判断出初始实体名中存在错误实体名时,会根据实体库中的命名实体对该错误实体名进行纠错,得到修正实体名。并基于修正实体名得到与修正实体名匹配的产品名称以及所述产品名称对应的上市公司股票代码。
比如,用户输入的股票查询信息为“123”,服务器识别出第一实体名为“123”,但实体库中的预设的实体关系中并没有命名实体“123”,而存在命名实体“1234(即产品a)”。由此,服务器会根据实体库中的命名实体“1234”对第一实体名“123”进行纠错,将其认定为命名实体“1234(产品a)”,从而输出“产品a”对应的“上市公司A”的股票代码。
请参阅图3,在其中一个实施例中,涉及预设的实体语义关系构建的具体过程。其中,步骤S208之前如下步骤:
步骤S302,获取待处理文本。
具体地,服务器获取待处理文本,所述待处理文本包括与股票信息相关的样本数据。比如,待处理文本可进一步包括新闻资讯文章信息(此处包括站内新闻和站外新闻的爬取)、上市公司信息、上市公司年报以及上市公司公告等数据的一种或多种。
通过对海量的财经资讯信息、公司年报、公司公告等资料进行处理和分析,构建出的服务器能够更快、更智能地匹配用户自选股票的意图,帮助用户更好的投资和理财。
步骤S304,对待处理文本进行分词,得到训练词序列,所述训练词序列包括至少一个分词词语。
具体地,在金融领域,存在一些专用的词语,比如,高转送、黑天鹅、贴现率等。服务器会将这些专用词语加入分词词库,根据该分词词库对待处理文本进行分词,得到训练词序列,保证了文本分词的准确性。
步骤S306,对训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名,所述训练实体名与股票信息相关。
具体地,服务器对分词后的文本进行命名实体识别,首先,服务器对训练词序列进行基于词的命名实体识别,具体采用层次循环神经网络进行基于词的命名实体识别;其次,服务器对训练词序列再次进行基于字的命名实体识别,来对上述基于词的命名实体识别的结果做补充。由于基于词的命名实体识别依赖于分词后的结果,而基于字的命名实体识别能够针对一些实体库中已有的词语模式进行学习,来对未登录的词语作命名实体识别,从而能够对基于词的命名实体识别的结果进行补充,提高了命名实体识别的准确性。
为了能够更好的理解本实施例,此处举一个简单的例子进行说明。例如当前实体库中有北京市东方医院这个组织机构名,服务器通过采用基于字的层次循环神经网络做命名实体识别,可以学到南京市友谊医院。因为当前命名实体识别模型学到了前面南京市这种地名和后面医院这种搭配,从而服务器能够识别出不在实体库中的词语,通过融合上述两种方法对训练词序列做命名实体识别,服务器能够准确地提取出公司名、公司负责人、个人股东、机构股东、公司商品名等对应的训练实体名。
步骤S308,获取训练实体名对应的训练实体向量,根据训练实体向量和依存语法对不同的训练实体名进行语义分析,获得所述预设的实体语义关系。
具体地,在建立预设的实体语义关系时,采用两步来完成:第一,由于当前实体库中的训练实体名都有经过深度神经网络训练得到的训练实体向量,而向量之间的距离关系可以反映出实体关系的相似性。例如,训练实体名包括上市公司C和上市公司D,它们都是电商企业,且是竞争对手关系,通过命名实体识别得到两者的训练实体向量后,可以通过计算两个训练实体向量的距离,发现这两个训练实体名具有很强的相似性。
第二,为了挖掘出两个相近训练实体名的关系,采用依存语法分析来分析不同训练实体名之间的关系。例如相近的训练实体名存在于同一个上下文中,只不过在句子中扮演的成分不一样,通过分析句子的成分,可以挖掘出哪些企业处于竞争关系,哪些企业处于合作关系。从而服务器根据训练实体向量和依存语法建立预设的实体语义关系。
上述实体语义关系更多的是从语义层面进行学习,具有一定的泛化能力,因为训练实体名的关系、训练实体向量都是可训练的,学习到的都是一个个实体名搭配,而不是固定关键词搭配。
进一步地,在一个实施例中,预设的实体语义关系还包括上市公司所属行业与上市公司股票代码的对应关系、上市公司与所述上市公司所属行业中与所述上市公司有关联的其它上市公司股票代码的对应关系的一种或多种。需要清楚,上市公司所属行业中与所述上市公司有关联的其它上市公司股票代码包括上市公司所属行业中与所述上市公司有合作关系的其它上市公司股票代码和/或上市公司所属行业中与所述上市公司有竞争关系的其它上市公司股票代码。
更进一步地,结合上一个实施例,将第一实体名根据预设的实体语义关系进行匹配,得到与第一实体名匹配的上市公司所属行业以及所述行业对应的上市公司股票代码、与所述第一实体名匹配的上市公司以及所述上市公司与所述上市公司所属行业中与所述上市公司有关联的其它上市公司股票代码的一种或多种,从而来帮助用户更好的选择上市公司股票。
在本实施例中,用户使用上述筛选方法,能够根据用户输入的信息来智能识别所要自选的上市公司股票代码。用户在进行自选股票的操作中,能够得到想要的上市公司股票展示,提升了用户的体验,增加了更多的用户流量。并且采用上述筛选方法得到的股票信息不仅具有识别用户自选股票意图的功能,还可以通过个性化的推荐用户关心的行业股票来帮助用户更好的选择上市公司股票,来扩大用户的收益,增加用户对当前产品的信任度,并提高用户使用当前产品的粘性,增大用户留存率。
请参阅图4,在其中一个实施例中,涉及对待处理文本进行分词的具体过程。其中,步骤S304包括:
步骤S3042,对待处理文本进行分词,得到初始词序列;
步骤S3044,对初始词序列进行序列标注,得到标注词序列;
步骤S3046,对标注词序列进行离线处理,得到训练词序列。
具体地,服务器可以根据已有的分词词库对待处理文本进行分词,得到初始词序列。然而随着时代的发展,由于金融词汇千变万化,经常会有新词语出现,比如数字货币、区块链等近期才出现的新词语。在服务器中,首先可以采用在线直接预测的方式对初始词序列进行修正,即通过序列标注算法来对一些分开的词语做粘合而组成新词,得到标注词序列。举个简单的例子说明,“数字货币”是一个新词,如果服务器用已有的分词词库对“数字货币”进行分词时,因为已有的分词词库只有“数字”和“货币”,而没有“数字货币”,因此得到的初始词序列为“数字/货币”。但是服务器通过序列标注可以将“数字货币”识别为一个新词,并通过语言模型判断,发现数字货币与上下文文章能够更好的保证语义准确性,所以将其合并成为一个词,来保证文本切词的语义正确性。因此,服务器通过使用序列标注算法对其进行修正,最终得到标注词序列为“数字货币”,从而保证了分词的准确性以及分词词库的完整性。
然而,由于通过在线直接预测的方式进行分词可能会有一定的误判,服务器会针对一些语言模型识别不准确的词语,且这些词语是通过在线直接预测的方式进行粘接在一起的新词,将这些得到的新词再进行拆分,以防止出现语义错误。然后服务器采用离线批量预测的方式进行判断分词是否准确。即对这些新词语通过统计词频、计算信息熵以及互信息来离线计算,并通过人工核验确定这些新词语是否切词正确,将正确的词语加入分词词库。
进一步地,服务器在得到训练词序列后,通过采用词性标注来挖掘每个词的词性,从而能够更好地得到文章特征,并方便在后续进行文章关键词抽取。作为一种可选的实施方式,服务器采用层次双向循环神经网络来对每个词的词性进行判断,由于层次双向循环神经网络能够挖掘词性更深层次的特征,从而保证了词性标注的准确性,并且能够保证当前词性的判断是基于当前词的上下文词性的约束。
请参阅图5,在其中一个实施例中,涉及对实体名进行同义词或近义词扩充的具体过程。在本实施例中,步骤S306具体包括:
步骤S3062,对训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到第二实体名及与第二实体名对应的第二实体向量。
具体地,服务器对训练词序列进行命名实体识别,一方面可以得到与训练词序列对应的第二实体名,另一方面可以得到与第二实体名对应的第二实体向量。第二实体名的向量化可通过采用命名实体识别所在的深度神经网络输入的可训练的实体向量来表示,进而得到对应的第二实体向量。
步骤S3064,根据第二实体向量对第二实体名进行同义词或近义词扩展,得到扩充实体名。
具体地,服务器根据不同的第二实体向量的向量距离(如欧式距离)来挖掘第二实体名之间的语义关系。需要清楚,如果两个实体名是同义词或近义词,代表这两个实体名的投影到向量空间的距离会很接近。可选地,服务器可通过近义词挖掘算法对第二实体名进行同义词或近义词扩展,以召回更多的实体近义词,得到扩充实体名。
步骤S3066,将第二实体名与扩充实体名合并,得到训练实体名。
传统的近义词挖掘算法,常常采用一些词网(如知网的HowNet等)来进行近义词挖掘,而没有从语义的角度进行挖掘,在本实施例中,服务器通过上述实体向量的方式进行同义词或近义词扩展,能够召回更多的实体近义词。
在其中一个实施例中,涉及去除非法实体名的具体过程。其中,步骤S3066具体包括:
步骤S3066a,将第二实体名与扩充实体名合并,得到第三实体名。
步骤S3066b,获取非法实体库,将第三实体名在非法实体库中进行匹配,去除第三实体名中的非法实体名,得到训练实体名。
具体地,所有的第三实体名构成实体库并存储在服务器中,服务器对实体库中的第三实体名进行筛选,主要是根据敏感、黄色、反动和低俗的非法实体库来去除一些非法实体名及非法实体关系等数据,以规避这些噪音数据造成的不良影响。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图6,在其中一个实施例中,提供了一种股票的筛选装置600,所述筛选装置600包括:
获取模块602,用于获取股票查询信息;
分词模块604,用于对所述股票查询信息进行分词,得到第一词序列,所述第一词序列包括至少一个分词词语;
识别模块606,用于对所述第一词序列进行命名实体识别,得到第一实体名,所述第一实体名与股票信息相关;
匹配模块608,用于根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,所述预设的实体语义关系包括第一实体名、产品名称及上市公司股票代码的对应关系。
上述股票的筛选装置,通过对用户输入的股票咨询信息进行分词以及命名实体识别,得到一组与股票信息相关的第一实体名,将第一实体名与预设的实体语义关系进行匹配,且该预设的实体语义关系包括用户知晓的产品名称与上市公司股票代码的对应关系,从而用户便可得到与该产品名称所对应的上市公司股票代码。该股票的筛选装置解决了用户输入产品的实际名称或语义相近的词进行自选股票时,无法查找到用户所想要的上市公司股票名称及上市公司股票代码的问题,提高了股票匹配的准确性。
在其中一个实施例中,所述筛选装置还包括:
第一获取模块,用于获取待处理文本,所述待处理文本包括与股票信息相关的样本数据;
第一分词模块,用于对所述待处理文本进行分词,得到训练词序列,所述训练词序列包括至少一个分词词语;
第一识别模块,用于对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名,所述训练实体名与股票信息相关;
建立模块,用于获取所述训练实体名对应的训练实体向量,根据所述训练实体向量和依存语法对不同的训练实体名进行语义分析,获得所述预设的实体语义关系。
在其中一个实施例中,所述第一获取模块还用于对所述待处理文本进行分词,得到初始词序列;对所述初始词序列进行序列标注,得到标注词序列;对标注词序列进行离线处理,得到训练词序列。
在其中一个实施例中,所述第一识别模块还用于对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到第二实体名及与所述第二实体名对应的第二实体向量;根据所述第二实体向量对所述第二实体名进行同义词或近义词扩展,得到扩充实体名;将所述第二实体名与所述扩充实体名合并,得到训练实体名。
关于股票的筛选装置的具体限定可以参见上文中对于股票的筛选方法的限定,在此不再赘述。上述股票的筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储词序列和实体名等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种股票的筛选方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取股票查询信息;对所述股票查询信息进行分词,得到第一词序列,所述第一词序列包括至少一个分词词语;对所述第一词序列进行命名实体识别,得到第一实体名,所述第一实体名与股票信息相关;根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,所述预设的实体语义关系包括第一实体名、产品名称及上市公司股票代码的对应关系。
上述计算机设备,通过对用户输入的股票咨询信息进行分词以及命名实体识别,得到一组与股票信息相关的第一实体名,将第一实体名与预设的实体语义关系进行匹配,且该预设的实体语义关系包括用户知晓的产品名称与上市公司股票代码的对应关系,从而用户便可得到与该产品名称所对应的上市公司股票代码。该股票的筛选方法解决了用户输入产品的实际名称或语义相近的词进行自选股票时,无法查找到用户所想要的上市公司股票名称及上市公司股票代码的问题,提高了股票匹配的准确性。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取待处理文本,所述待处理文本包括与股票信息相关的样本数据;对所述待处理文本进行分词,得到训练词序列,所述训练词序列包括至少一个分词词语;对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名,所述训练实体名与股票信息相关;获取所述训练实体名对应的训练实体向量,根据所述训练实体向量和依存语法对不同的训练实体名进行语义分析,获得所述预设的实体语义关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对所述待处理文本进行分词,得到初始词序列;对所述初始词序列进行序列标注,得到标注词序列;对标注词序列进行离线处理,得到训练词序列。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取股票查询信息;对所述股票查询信息进行分词,得到第一词序列,所述第一词序列包括至少一个分词词语;对所述第一词序列进行命名实体识别,得到第一实体名,所述第一实体名与股票信息相关;根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,所述预设的实体语义关系包括第一实体名、产品名称及上市公司股票代码的对应关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取待处理文本,所述待处理文本包括与股票信息相关的样本数据;对所述待处理文本进行分词,得到训练词序列,所述训练词序列包括至少一个分词词语;对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名,所述训练实体名与股票信息相关;获取所述训练实体名对应的训练实体向量,根据所述训练实体向量和依存语法对不同的训练实体名进行语义分析,获得所述预设的实体语义关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对所述待处理文本进行分词,得到初始词序列;对所述初始词序列进行序列标注,得到标注词序列;对标注词序列进行离线处理,得到训练词序列。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种股票的筛选方法,其特征在于,所述筛选方法包括:
获取股票查询信息;
对所述股票查询信息进行分词,得到第一词序列,所述第一词序列包括至少一个分词词语;
对所述第一词序列进行命名实体识别,得到第一实体名,所述第一实体名与股票信息相关;
根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,所述预设的实体语义关系包括所述第一实体名、所述产品名称及所述上市公司股票代码之间的对应关系;
所述根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码的步骤之前包括:
获取待处理文本,所述待处理文本包括与股票信息相关的样本数据;
对所述待处理文本进行分词,得到训练词序列,所述训练词序列包括至少一个分词词语;
对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名,所述训练实体名与所述股票信息相关;
获取所述训练实体名对应的训练实体向量,根据所述训练实体向量和依存语法对不同的训练实体名进行语义分析,获得所述预设的实体语义关系。
2.根据权利要求1所述的股票的筛选方法,其特征在于,所述预设的实体语义关系还包括上市公司所属行业与上市公司股票代码的对应关系、上市公司与所述上市公司所属行业中与所述上市公司有关联的其它上市公司股票代码的对应关系的一种或多种。
3.根据权利要求1所述的股票的筛选方法,其特征在于,所述对所述待处理文本进行分词,得到训练词序列的步骤包括:
对所述待处理文本进行分词,得到初始词序列;
对所述初始词序列进行序列标注,得到标注词序列;
对所述标注词序列进行离线处理,得到所述训练词序列。
4.根据权利要求1所述的股票的筛选方法,其特征在于,所述对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名的步骤包括:
对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到第二实体名及与所述第二实体名对应的第二实体向量;
根据所述第二实体向量对所述第二实体名进行同义词或近义词扩展,得到扩充实体名;
将所述第二实体名与所述扩充实体名合并,得到所述训练实体名。
5.根据权利要求4所述的股票的筛选方法,其特征在于,所述将所述第二实体名与所述扩充实体名合并,得到所述训练实体名的步骤包括:
将所述第二实体名与所述扩充实体名合并,得到第三实体名;
获取非法实体库,将所述第三实体名在所述非法实体库中进行匹配,去除所述第三实体名中的非法实体名,得到所述训练实体名。
6.根据权利要求2所述的股票的筛选方法,其特征在于,所述根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码的步骤包括:
将所述第一实体名根据预设的实体语义关系进行匹配,得到与所述第一实体名匹配的上市公司所属行业以及所述行业对应的上市公司股票代码、与所述第一实体名匹配的上市公司以及所述上市公司与所述上市公司所属行业中与所述上市公司有关联的其它上市公司股票代码的一种或多种。
7.一种股票的筛选装置,其特征在于,所述筛选装置包括:
获取模块,用于获取股票查询信息;
分词模块,用于对所述股票查询信息进行分词,得到第一词序列,所述第一词序列包括至少一个分词词语;
识别模块,用于对所述第一词序列进行命名实体识别,得到第一实体名,所述第一实体名与股票信息相关;
匹配模块,用于根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码;其中,所述预设的实体语义关系包括第一实体名、产品名称及上市公司股票代码的对应关系;
第一获取模块,用于在根据预设的实体语义关系对所述第一实体名进行匹配,得到与所述第一实体名匹配的产品名称对应的上市公司股票代码的步骤之前,获取待处理文本,所述待处理文本包括与股票信息相关的样本数据;
第一分词模块,用于对所述待处理文本进行分词,得到训练词序列,所述训练词序列包括至少一个分词词语;
第一识别模块,用于对所述训练词序列分别进行基于词的命名实体识别以及基于字的命名实体识别,得到训练实体名,所述训练实体名与所述股票信息相关;
建立模块,用于获取所述训练实体名对应的训练实体向量,根据所述训练实体向量和依存语法对不同的训练实体名进行语义分析,获得所述预设的实体语义关系。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201810910344.4A 2018-08-10 2018-08-10 股票的筛选方法及装置、计算机设备及可读存储介质 Active CN109033427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810910344.4A CN109033427B (zh) 2018-08-10 2018-08-10 股票的筛选方法及装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810910344.4A CN109033427B (zh) 2018-08-10 2018-08-10 股票的筛选方法及装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109033427A CN109033427A (zh) 2018-12-18
CN109033427B true CN109033427B (zh) 2021-01-01

Family

ID=64632783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810910344.4A Active CN109033427B (zh) 2018-08-10 2018-08-10 股票的筛选方法及装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN109033427B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815268A (zh) * 2018-12-21 2019-05-28 上海诺悦智能科技有限公司 一种交易制裁名单匹配系统
CN111612633A (zh) * 2020-05-27 2020-09-01 佛山市知识图谱科技有限公司 股票分析方法、装置、计算机设备和存储介质
CN115881121A (zh) * 2020-06-22 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN113378555B (zh) * 2021-06-22 2023-06-27 富途网络科技(深圳)有限公司 个股的智能关联方法及相关产品

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101311923B (zh) * 2007-05-23 2010-06-02 神乎科技股份有限公司 一种信息分类检索系统与方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN105718586B (zh) * 2016-01-26 2018-12-28 中国人民解放军国防科学技术大学 分词的方法及装置
CN106372060B (zh) * 2016-08-31 2019-05-03 北京百度网讯科技有限公司 搜索文本的标注方法和装置
CN106844488A (zh) * 2016-12-23 2017-06-13 北京奇虎科技有限公司 结合搜索的股票类ugc数据推荐方法及装置
CN107885874B (zh) * 2017-11-28 2020-09-29 上海智臻智能网络科技股份有限公司 数据查询方法和装置、计算机设备及计算机可读存储介质
CN108052659B (zh) * 2017-12-28 2022-03-11 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置和电子设备

Also Published As

Publication number Publication date
CN109033427A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN110502608B (zh) 基于知识图谱的人机对话方法及人机对话装置
WO2021027533A1 (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109033427B (zh) 股票的筛选方法及装置、计算机设备及可读存储介质
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN109087205B (zh) 舆情指数的预测方法及装置、计算机设备和可读存储介质
CN111931490B (zh) 文本纠错方法、装置及存储介质
CN109815333A (zh) 信息获取方法、装置、计算机设备和存储介质
CN107102993B (zh) 一种用户诉求分析方法和装置
CN110162681B (zh) 文本识别、文本处理方法、装置、计算机设备和存储介质
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN113707300A (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN110750523A (zh) 数据标注方法、系统、计算机设备和存储介质
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN110046806B (zh) 用于客服派单的方法、装置和计算设备
CN111198939A (zh) 语句相似度的分析方法、装置及计算机设备
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN112288279A (zh) 基于自然语言处理和线性回归的业务风险评估方法和装置
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN113688215A (zh) 信息抽取、模型训练方法、装置、计算机设备和存储介质
CN112541357A (zh) 实体识别方法、装置及智能设备
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN111708819A (zh) 用于信息处理的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant