CN112380857A

CN112380857A - 一种金融领域近义词的扩展方法、装置及存储介质

Info

Publication number: CN112380857A
Application number: CN202011206972.8A
Authority: CN
Inventors: 蔡少波; 陈凯; 周异
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-19
Anticipated expiration: 2040-11-03
Also published as: CN112380857B

Abstract

本发明公开了一种金融领域近义词的扩展方法、装置及存储介质，该方法包括：从多个金融门户和/或网站获取金融语料；对获取的金融语料进行分词处理；分别计算每个单词最相近的单词；构建单词网络结构；利用可重叠社区发现算法建立具有社区结构的语料库；将每个社区归类出的单词存储至存储单元，当接收到检索词时，将检索词所在的社区输出。该装置包括：金融语料单元、分词处理单元、最相近的单词计算单元、单词网络结构构建单元、语料库建立单元以及社区输出单元。通过本发明，可以识别语义相似关系，当输入一个或多个金融词语时，可以输出意思相近的若干词语，无需用户具备专业领域的知识，可以大大降低用户的检索难度和时间，提高检索准确度。

Description

一种金融领域近义词的扩展方法、装置及存储介质

技术领域

本发明涉及金融检索领域，特别涉及一种金融领域近义词的扩展方法、装置及存储介质。

背景技术

普通百姓对金融领域的检索有大量需求，但需要大量专业领域知识。如果用户对金融领域比较陌生时，很难检索到准确的词语。此时需要通过近义词的拓展方法提供更多选择，帮助用户确定下一步检索方向，以能满足用户的检索需求。

传统分类算法在处理语义相似关系时有局限，主要有文本相似度算法，词向量算法等。

现有技术中，通过文本相似度算法输出近义词，存在以下缺点：会挖掘出很多错误的同义词，尤其是在词语很短的时候，例如“周杰伦”和“周杰”就很有可能被认为是同义词。

现有技术中，通过词向量算法来输出近义词，存在以下缺点：(1)输出的数量难以界定。例如输出确定为Top20时，可能在第15个词时相似度已经很低，或者第21个词相似度很高却被遗漏的情况。(2)词向量算法只能接收一个单词输入，会出现具有歧义的情况。例如，输入火箭，输出导弹、姚明为近义词，而导弹和姚明意思并不相近。

发明内容

本发明针对上述现有技术中存在的问题，提出一种金融领域近义词的扩展方法、装置及存储介质，可以识别语义相似关系，当输入一个或多个金融词语时，可以输出意思相近的若干词语，实现近义词的扩展。

为解决上述技术问题，本发明是通过如下技术方案实现的：

本发明提供一种金融领域近义词的扩展方法，其包括：

从多个金融门户和/或网站获取金融语料；

对获取的所述金融语料进行分词处理；

分别计算分词处理后的每个单词最相近的单词；

利用所述分词处理与每个单词最相近的单词的结果构建单词网络结构；

根据所述单词网络结构，利用可重叠社区发现算法建立具有社区结构的语料库；

将每个社区归类出的单词存储至存储单元，当接收到检索词时，将所述检索词所在的社区输出。

较佳地，所述分词处理进一步为：分成具有上下文关系的两个或两个以上单词。

较佳地，所述分别计算分词处理后的每个单词最相近的单词之前还包括：预先获得每个单词的向量表示。

较佳地，所述分别计算分词处理后的每个单词最相近的单词，包括：

采用word2vec获得每个单词的向量表示；

根据得到的每个单词的向量表示，计算得到每个单词最相近的单词。

较佳地，所述利用所述分词处理与每个单词最相近的单词的结果构建单词网络结构，包括：每个单词为一个网络节点，如果两者是相近的，两者之间形成一条边。

较佳地，所述利用可重叠社区发现算法建立具有社区结构的语料库，包括：

找到单词网络结构中的大小为K的完全子图，其中完全子图是指K个节点全部相连构成的图；

将每个完全子图定义为一个节点，建立重叠矩阵表示完全子图之间的连接关系，非对角线元素代表两个连通的派系之间公共的节点数；

将所述重叠矩阵变为社区邻接矩阵，具体为：将所述重叠矩阵中的对角线小于K，非对角线小于K-1的元素全部置为0，其余为1；

根据所述社区邻接矩阵得到相应的社区结构以及相邻社区的重叠节点。

本发明还提供一种金融领域近义词的扩展装置，其包括：金融语料单元、分词处理单元、最相近的单词计算单元、单词网络结构构建单元、语料库建立单元以及社区输出单元；其中，

所述金融语料单元用于从多个金融门户和/或网站获取金融语料；

所述分词处理单元与所述金融语料单元相连，用于对获取的所述金融语料进行分词处理；

所述最相近的单词计算单元与所述分词处理单元相连，用于分别计算分词处理后的每个单词最相近的单词；

所述单词网络结构构建单元与所述最相近的单词计算单元相连，用于利用所述分词处理单元与最相近的单词计算单元的结果构建单词网络结构；

所述语料库建立单元与所述单词网络结构构建单元相连，用于利用可重叠社区发现算法建立具有社区结构的语料库；

所述社区输出单元与所述语料库建立单元相连，用于将每个社区归类出的单词存储至存储单元，当接收到检索词时，将所述检索词所在的社区输出。

较佳地，还包括：单词的向量表示单元，其与所述最相近的单词计算单元相连，用于预先获得每个单词的向量表示。

较佳地，所述语料库建立单元进一步包括：完全子图单元、重叠矩阵单元、社区邻接矩阵单元以及社区结构单元；其中，

所述完全子图单元用于找到单词网络结构中的大小为K的完全子图，其中完全子图是指K个节点全部相连构成的图；

所述重叠矩阵单元用于将每个完全子图定义为一个节点，建立重叠矩阵表示完全子图之间的连接关系，非对角线元素代表两个连通的派系之间公共的节点数；

所述社区邻接矩阵单元用于将所述重叠矩阵变为社区邻接矩阵，具体为：将所述重叠矩阵中的对角线小于K，非对角线小于K-1的元素全部置为0，其余为1；

所述社区结构单元用于根据所述社区邻接矩阵得到相应的社区结构以及相邻社区的重叠节点。

本发明还提供一种存储介质，其上存储有计算机程序，所述程序被执行时用于实现如上述所述的方法。

相较于现有技术，本发明实施例具有以下至少一种有益效果：

(1)本发明提供的金融领域近义词的扩展方法、装置及存储介质，通过分词处理，并分别计算分词处理后的每个单词最相近的单词；利用上述结果构建单词网络结构；并且根据单词网络结构，利用可重叠社区发现算法建立具有社区结构的语料库，可以把单词的语义扩展，更加完整的输出相关联的词语；

(2)本发明提供的金融领域近义词的扩展方法、装置及存储介质，通过构建单词网络结构；并且根据单词网络结构，利用可重叠社区发现算法建立具有社区结构的语料库，可以接收多个输入，进一步排除意义并不相近的词语；如：用户可以输入火箭、篮球，此时就可以排除导弹等意义并不相近的词语；节约了用户的筛选时间；

(3)本发明提供的金融领域近义词的扩展方法、装置及存储介质，可以在很多领域中得到应用，例如，探索式搜索、解决分类问题；探索式搜索指当用户对某个特定专业领域比较陌生，或者搜索任务自身就需要较多分析时，用户通常需要提交一些试探性的搜索请求，等待搜索引擎对请求进行分析，做出推荐，接着确定下一步的搜索方向。

使用本发明的金融领域近义词的扩展方法、装置及存储介质，可以通过对输入词进行扩展，得到金融领域中对应的专业词语及其近义词，得到更全面而准确的检索结果，节省用户检索时间，同时用户可以在不掌握金融领域专业词语的情况下，完成比较准确的检索。

附图说明

下面结合附图对本发明的实施方式作进一步说明：

图1为本发明一实施例的金融领域近义词的扩展方法的流程图；

图2为本发明一较佳实施例的金融领域近义词的扩展方法的流程图；

图3为本发明一较佳实施例的分别计算分词处理后的每个单词最相近的单词的流程图；

图4为本发明一较佳实施例的利用可重叠社区发现算法建立具有社区结构的语料库的流程图；

图5为本发明一实施例的金融领域近义词的扩展装置的示意图；

图6为本发明一较佳实施例的金融领域近义词的扩展装置的示意图；

图7为本发明一较佳实施例的语料库建立单元的示意图。

标号说明：1-金融语料单元，2-分词处理单元，3-最相近的单词计算单元，4-单词网络结构构建单元，5-语料库建立单元，6-社区输出单元，7-单词的向量表示单元；

51-完全子图单元，52-重叠矩阵单元，53-社区邻接矩阵单元，54-社区结构单元。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示为本发明一实施例的金融领域近义词的扩展方法的流程图。

请参考图1，本实施例的金融领域近义词的扩展方法包括以下步骤：

S11：利用网络爬虫技术从多个金融门户和/或网站获取金融语料；

例如，金融门户可以包括：雪球股票、东方财富、惠博投资等；网站可以包括：百度百科、维基百科等；当然，并不限于这些门户和/或网站。

S12：对获取的金融语料进行分词处理；

具体的，分词处理可以是分解成具有上下文关系的单词，例如“郎酒股份资产负债率高偿债能力存疑”会分解成[郎酒股份，资产负债率，高，偿债能力，存疑]。

S13：分别计算分词处理后的每个单词最相近的单词；

例如，偿债能力，短期偿债能力，长期负债能力最相近的5个单词分别为：

偿债能力：[债务水平，债务风险，长期偿债能力，短期偿债能力，资产负债率]；

长期偿债能力：[偿债能力，长期债务，债务水平，资产负债率，资本周转率]；

短期偿债能力：[偿债能力，短期负债，流动比率，速动比率，债务水平]，其中流动比率、速动比率等单词也是相近单词，此处不再一一罗列；

S14：利用S12与S13的结果构建单词网络结构；

具体的，每个单词就是一个网络节点，如果两者是相近的，两者之间就会形成一条边；通过若干单词的节点，构建得到单词网络结构。

S15：基于S14的单词网络结构，利用可重叠社区发现算法建立具有社区结构的语料库；

S16：将每个社区归类出的单词存储至存储单元，单元中的词具有相同语义或关联关系，当接收到用户通过检索界面输入的检索词时，将检索词所在的社区输出；

例如，当用户搜索偿债能力时，通过交互式应用确认用户想要的是社区1还是社区2，便可将检索词所在的社区输出。

本发明上述实施例，可以通过对输入词进行扩展，得到金融领域中对应的专业词语及其近义词，无需用户具备金融领域的专业知识，可以大大降低用户的检索难度和时间，提高检索准确度和检索的全面性。

较佳实施例中，S13中分别计算分词处理后的每个单词最相近的单词之前还包括：预先获得每个单词的向量表示。流程图如图2所示。

较佳实施例中，S13进一步包括：

S41：预先获得每个单词的向量表示可以采用word2vec(word to vec)。word2vec是用来产生词向量的相关模型，是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，从而便于进行数学处理。

S42：根据S41得到的每个单词的向量表示，计算得到每个单词最相近的单词。其流程图如图3所示。

较佳实施例中，S15进一步包括：

S61：找到单词网络结构中的大小为K的完全子图，其中完全子图是指K个节点全部相连构成的图；

例如，当K＝3时，可以找到的完全子图[偿债能力，资产负债率，长期偿债能力]、[短期偿债能力，流动比率，速动比率]、[偿债能力，债务水平，短期偿债能力]等等；

S62：将每个完全子图定义为一个节点，建立重叠矩阵表示完全子图之间的连接关系，非对角线元素代表两个连通的派系之间公共的节点数；

S63：将重叠矩阵变为社区邻接矩阵，具体为：将重叠矩阵中的对角线小于K，非对角线小于K-1的元素全部置为0，其余为1；

S64：根据社区邻接矩阵得到相应的社区结构以及相邻社区的重叠节点，其流程图如图4所示；

例如，一实施例中输出了两个社区结构：

社区1偿债能力、债务水平、长期负债能力、资产负债率、资本周转率社区2偿债能力、债务水平、短期偿债能力、流动比率、速动比率

因此得到两个社区的重叠节点为：偿债能力、债务水平。

本发明上述优选实施例中，可以接收多个输入，进一步排除意义并不相近的词语；节约了用户的筛选时间，可以在很多领域中得到应用，例如，探索式搜索、解决分类问题，特别适用于没有金融领域专业知识的用户。

如图5所示为本发明一实施例的金融领域近义词的扩展装置的示意图。

请参考图5，本实施例的金融领域近义词的扩展装置包括：金融语料单元1、分词处理单元2、最相近的单词计算单元3、单词网络结构构建单元4、语料库建立单元5以及社区输出单元6；其中，金融语料单元1用于从多个金融门户和/或网站获取金融语料；分词处理单元2与金融语料单元1相连，用于对获取的所述金融语料进行分词处理；最相近的单词计算单元3与分词处理单元2相连，用于分别计算分词处理后的每个单词最相近的单词；单词网络结构构建单元4与最相近的单词计算单元3相连，用于利用分词处理单元2与最相近的单词计算单元3的结果构建单词网络结构；语料库建立单元5与单词网络结构构建单元4相连，用于利用可重叠社区发现算法建立具有社区结构的语料库；社区输出单元6与语料库建立单元5相连，用于将每个社区归类出的单词存储至存储单元，当接收到检索词时，将检索词所在的社区输出。

较佳实施例中，还包括：单词的向量表示单元7，其与所述最相近的单词计算单元之间，用于在计算分词处理后的每个单词最相近的单词之前预先获得每个单词的向量表示，其示意图如图6所示。

较佳实施例中，语料库建立单元5进一步包括：完全子图单元51、重叠矩阵单元52、社区邻接矩阵单元53以及社区结构单元54，其示意图如图7所示；其中，完全子图单元51用于找到单词网络结构中的大小为K的完全子图，其中完全子图是指K个节点全部相连构成的图；重叠矩阵单元52用于将每个完全子图定义为一个节点，建立重叠矩阵表示完全子图之间的连接关系，非对角线元素代表两个连通的派系之间公共的节点数；社区邻接矩阵单元53用于将重叠矩阵变为社区邻接矩阵，具体为：将重叠矩阵中的对角线小于K，非对角线小于K-1的元素全部置为0，其余为1；社区结构单元54用于根据社区邻接矩阵得到相应的社区结构以及相邻社区的重叠节点。

上述实施例中的金融领域近义词的扩展装置，其各单元具体实现的技术可以参照金融领域近义词的扩展方法的各步骤的实现，在此不再赘述。

在本发明另一实施例中，还提供一种金融领域近义词的扩展终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项实施例中所述的金融领域近义词的扩展方法。

在本发明另一实施例中，还提供一种存储介质，其上存储有计算机程序，计算机程序被执行时用于实现上述任一项实施例中的金融领域近义词的扩展方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

下面以两个应用实例来说明利用上述实施例的金融领域近义词的扩展方法与装置得到的社区结构以及探索式搜索引擎应用。

应用实例1：

S12分词处理后的单词：

偿债能力债务水平短期偿债能力长期偿债能力流动比率速动比率现金比率流动负债利息倍数资本周转率负债比例负债权益比权益乘数现金对利息的保障倍数应收账款应付票据应计费用

S15建立的具有社区结构的语料库：

社区1短期偿债能力流动比率速动比率现金比率流动负债流动资产应收账款应付票据应计费用偿债能力债务水平短期债务偿债能力

社区2长期偿债能力资本周转率负债比例负债权益比权益乘数现金对利息的保障倍数长期债务偿债能力债务水平

相邻社区的重叠节点：偿债能力债务水平

S16探索式搜索引擎应用：

请输入你想搜索的关键词：偿债能力

您要找的是不是：短期偿债能力是输入Y，相似输入M，不是输入N：N

您要找的是不是：长期偿债能力是输入Y，相似输入M，不是输入N：M

您要找的是不是：资本周转率是输入Y，相似输入M，不是输入N：Y

输出：资本周转率

应用实例2：

S12分词处理后的单词：

合并合并报表年报会计政策合并会计报表现金流量表资产负债表损益表利润表子公司母公司信息披露并购兼并吸收合并新设合并资产收购协同效应现金收购换股收购商誉重组股东会决议

S15建立的具有社区结构的语料库：

社区1：合并年报会计政策合并会计报表现金流量表资产负债表损益表利润表子公司母公司信息披露

社区2:合并并购兼并吸收合并新设合并资产收购协同效应现金收购换股收购商誉重组股东会决议

相邻社区的重叠节点：合并

S16探索式搜索引擎应用：

请输入你想搜索的关键词：合并

您要找的是不是：合并报表是输入Y，相似输入M，不是输入N：N

您要找的是不是：吸收合并是输入Y，相似输入M，不是输入N：M

您要找的是不是：资产收购是输入Y，相似输入M，不是输入N：Y

输出：资产收购

通过以上的应用实例可以说明本发明的金融领域近义词的扩展方法、装置及存储介质具有以下优点：(1)可以把单词的语义扩展，更加完整的输出相关联的词语；(2)可以接收多个输入，进一步排除意义并不相近的词语；如：用户可以输入火箭、篮球，此时就可以排除导弹等意义并不相近的词语；(3)可以在很多领域中得到应用，例如，探索式搜索、解决分类问题；探索式搜索指当用户对某个特定专业领域比较陌生，或者搜索任务自身就需要较多分析时，用户通常需要提交一些试探性的搜索请求，等待搜索引擎对请求进行分析，做出推荐，接着确定下一步的搜索方向。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

此处公开的仅为本发明的优选实施例，本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，并不是对本发明的限定。任何本领域技术人员在说明书范围内所做的修改和变化，均应落在本发明所保护的范围内。

Claims

1.一种金融领域近义词的扩展方法，其特征在于，包括：

从多个金融门户和/或网站获取金融语料；

对获取的所述金融语料进行分词处理；

分别计算分词处理后的每个单词最相近的单词；

2.根据权利要求1所述的金融领域近义词的扩展方法，其特征在于，所述分词处理进一步为：分成具有上下文关系的两个或两个以上单词。

3.根据权利要求1所述的金融领域近义词的扩展方法，其特征在于，所述分别计算分词处理后的每个单词最相近的单词之前还包括：预先获得每个单词的向量表示。

4.根据权利要求3所述的金融领域近义词的扩展方法，其特征在于，所述分别计算分词处理后的每个单词最相近的单词，包括：

采用word2vec获得每个单词的向量表示；

根据所述每个单词的向量表示，计算得到每个单词最相近的单词。

5.根据权利要求1所述的金融领域近义词的扩展方法，其特征在于，利用所述分词处理与每个单词最相近的单词的结果构建单词网络结构，包括：每个单词为一个网络节点，如果两者是相近的，两者之间形成一条边，从而得到单词网络结构。

6.根据权利要求1所述的金融领域近义词的扩展方法，其特征在于，所述利用可重叠社区发现算法建立具有社区结构的语料库，包括：

7.一种金融领域近义词的扩展装置，其特征在于，包括：金融语料单元、分词处理单元、最相近的单词计算单元、单词网络结构构建单元、语料库建立单元以及社区输出单元；其中，

8.根据权利要求7所述的金融领域近义词的扩展装置，其特征在于，还包括：单词的向量表示单元，其与所述最相近的单词计算单元相连，用于预先获得每个单词的向量表示。

9.根据权利要求7所述的金融领域近义词的扩展装置，其特征在于，所述语料库建立单元进一步包括：完全子图单元、重叠矩阵单元、社区邻接矩阵单元以及社区结构单元；其中，

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被执行时用于实现如权利要求1至6任一项所述的方法。