CN111581990B

CN111581990B - 跨境交易撮合匹配方法及装置

Info

Publication number: CN111581990B
Application number: CN202010405887.8A
Authority: CN
Inventors: 田晓丹; 曲婕
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2023-11-21
Anticipated expiration: 2040-05-14
Also published as: CN111581990A

Abstract

本发明提供一种跨境交易撮合匹配方法及装置，该方法包括：利用知识图谱方式构建知识库，将知识库中的词加入分词词典并标记词性；接收跨境交易基础数据，并从外部数据源获得跨境交易补充数据，跨境交易基础数据和补充数据组成跨境交易文本信息；通过机器翻译将多个跨境交易文本信息翻译成同一语言；利用分词词典，通过NLP对多个跨境交易文本信息进行分词提取处理获得交易供需属性信息；基于知识库和交易供需属性信息进行跨境交易撮合匹配，获得多个客户匹配对，将多个客户匹配对按匹配度进行降序排列，输出匹配度大于预设匹配度值时对应的客户匹配对；返回对应的客户匹配对至相应的客户。该方案可以精准和高效地为客户匹配合适的洽谈对象。

Description

跨境交易撮合匹配方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种跨境交易撮合匹配方法及装置。

背景技术

跨境交易撮合平台是为促进(中外中小)企业开展跨境合作提供撮合服务及金融服务的一个平台。目前，客户在交易跨境撮合平台通过文本的方式录入供需描述，但由于此类描述是多语种，且提供的信息可能不全，现有技术无法从这类信息中精准识别客户意图，无法利用文本类信息进行精准和高效地匹配，导致洽谈成功率不高。

发明内容

本发明实施例提供了一种跨境交易撮合匹配方法及装置，解决了现有技术中利用文本类信息无法精准识别客户意图、无法进行精准和高效地匹配，导致洽谈成功率不高的技术问题。

本发明实施例提供了一种跨境交易撮合匹配方法，包括：

利用知识图谱方式构建知识库；

将所述知识库中的词加入到分词词典中，并标记词性；

接收多个客户输入的跨境交易基础数据，根据所述跨境交易基础数据从外部数据源获得跨境交易补充数据，所述跨境交易基础数据和所述跨境交易补充数据组成跨境交易文本信息；

通过机器翻译方式对多个跨境交易文本信息进行翻译，将多个跨境交易文本信息翻译成同一语言的多个跨境交易文本信息；

利用分词词典，通过自然语言处理方式对多个跨境交易文本信息进行分词提取处理，获得每个客户对应的交易供需属性信息；

基于知识库和每个客户对应的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，获得多个客户匹配对，将所述多个客户匹配对按匹配度进行降序排列，输出匹配度大于预设匹配度值时对应的客户匹配对；

返回所述匹配度大于预设匹配度值时对应的客户匹配对至相应的客户；

利用知识图谱方式构建知识库，包括：

从不同数据源获取产品相关信息；

对从不同数据源获取的产品相关信息进行产品实体抽取，获得不同数据源对应的产品词；

对所述不同数据源对应的产品词进行产品实体语义关系抽取，获得与所述不同数据源对应的产品词有关联的关系词；

基于所述产品词、关系词、产品词和关系词之间的语义关系构建产品知识库；

利用知识图谱方式构建知识库，还包括：

对所述产品词、关系词、产品词和关系词之间的语义关系进行知识消歧与融合；

根据进行知识消歧与融合后的所述产品词、关系词、产品词和关系词之间的语义关系构建产品知识库；

基于知识库和每个客户对应的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，获得多个客户匹配对，包括：

基于所述产品词、关系词、产品词和关系词之间的语义关系，利用不同维度下的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，获得不同维度下的匹配度；

对所述不同维度下的匹配度赋予权重值；

根据所述不同维度下的匹配度及对应的权重值，获得最终匹配值。

本发明实施例还提供了一种跨境交易撮合匹配装置，该装置包括：

知识库构建模块，用于利用知识图谱方式构建知识库；

分词词典模块，用于将所述知识库中的词加入到分词词典中，并标记词性；

数据获取模块，用于接收多个客户输入的跨境交易基础数据，根据所述跨境交易基础数据从外部数据源获得跨境交易补充数据，所述跨境交易基础数据和所述跨境交易补充数据组成跨境交易文本信息；

翻译模块，用于通过机器翻译方式对多个跨境交易文本信息进行翻译，将多个跨境交易文本信息翻译成同一语言的多个跨境交易文本信息；

NLP分词提取模块，用于利用分词词典，通过自然语言处理方式对多个跨境交易文本信息进行分词提取处理，获得每个客户对应的交易供需属性信息；

匹配模块，用于基于知识库和每个客户对应的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，获得多个客户匹配对，将所述多个客户匹配对按匹配度进行降序排列，输出匹配度大于预设匹配度值时对应的客户匹配对；

匹配度返回模块，用于返回所述匹配度大于预设匹配度值时对应的客户匹配对至相应的客户；

知识库构建模块具体用于：

从不同数据源获取产品相关信息；

知识库构建模块具体用于：

对所述不同维度下的匹配度赋予权重值；

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述所述方法的计算机程序。

在本发明实施例中，收集客户输入的跨境交易基础数据和从外部数据源获得跨境交易补充数据，这样可以保证客户信息的完整性。针对多语种的文本类信息，首先采用机器翻译将外文翻译成同一语言，再采用分词提取技术将非标准化的文本信息进行标准化，提取客户对应的交易供需属性信息。利用知识图谱技术构建知识库，利用知识库和交易供需属性信息，撮合匹配客户的跨境交易。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种跨境交易撮合匹配方法流程图；

图2是本发明实施例提供的一种跨境交易撮合匹配方法整体流程图；

图3是本发明实施例提供的一种产品知识库构建流程图；

图4是本发明实施例提供的一种匹配流程图；

图5是本发明实施例提供的一种跨境交易撮合匹配装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，提供了一种跨境交易撮合匹配方法，如图1和图2所示，该方法包括：

步骤102：利用知识图谱方式构建知识库。

具体的，知识库中可以包括产品知识库、行业库、国家地区对照表、意图词库等。通过经验发现，企业的供需描述中，产品占很重要的比重，决定两个企业之间是否能达成合作意向，也往往取决于双方的产品是否符合企业诉求。因此，采用知识图谱技术对产品领域进行了知识挖掘，自建语料库，并从中挖掘产品词汇以及产品词汇间的关联关系，最终形成产品知识库。

知识图谱(Knowledge Graph)又称科学知识图谱，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

构建知识图谱的主要目的是获取大量的、让计算机可读的知识。在互联网飞速发展的今天，知识大量存在于非结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中，构建知识图谱主要有三部分，第一部分是知识获取，主要阐述如何从非结构化、半结构化，以及结构化数据中获取知识。第二步是数据融合，主要阐述如何将不同数据源获取的知识进行融合构建数据之间的关联。第三部分是知识计算及应用，这一部分关注的是基于知识图谱计算功能以及基于知识图谱的应用。

基于此，知识库的构建过程(即步骤102)如图3所示：

步骤1021：从不同数据源获取产品相关信息；

步骤1022：对从不同数据源获取的产品相关信息进行产品实体抽取，获得不同数据源对应的产品词；

步骤1023：对所述不同数据源对应的产品词进行产品实体语义关系抽取，获得与所述不同数据源对应的产品词有关联的关系词；

步骤1024：基于所述产品词、关系词、产品词和关系词之间的语义关系构建产品知识库。

其中，步骤1021指的是数据采集步骤，可以采集产品领域相关数据，比如包括从百度百科、维基百科等非结构化网页、开源半结构化数据、生产系统的结构化数据等采集数据组成学习语料。

步骤1022～步骤1024指的是知识获取步骤，首先是实体抽取，从学习语料中抓取产品词。其中，在产品知识图谱中，实体指产品实体。其次是关系抽取，基于词典或者模式抽取的方式抽取同义词、近义词和上下位词(即与产品词有关联的关系词)；对学习语料进行分词，然后对产品词和关系词利用word2vec构建词向量，根据词向量模型计算产品词的关系词，基于与关系词之间的相关度，从而挖掘相关关系。其中，实体关系指产品与产品之间的关系，如“番茄”和“西红柿”具有同义的关系。模式抽取是从某种特定的表达方式中抽取关键词的手段，形如“小麦是一种农作物”，可抽取到词语“小麦”的上位词“农作物”。

Word2vec为一群用来产生词向量的相关模型。这些模型为浅层双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层。

另外，知识库的构建过程(即步骤102)还包括：

根据进行知识消歧与融合后的所述产品词、关系词、产品词和关系词之间的语义关系构建产品知识库。

所述产品知识库采用neo4j图数据库存储所述产品词、关系词、产品词和关系词之间的语义关系。

该步骤属于知识集成步骤，包括知识融合、知识存储和知识更新。知识融合指从不同数据源中挖掘的实体及实体关系进行知识消歧与融合，消歧与融合指的是不同词汇描述的是同一实体，比如，“名族服装”与“民俗服”是同义词，这两个词指向的是同一个实体，需要进行知识消歧和融合之后合并到一起。知识存储采用neo4j图数据库存储实体与关系。知识更新指随着采集数据的更新、线上系统的反馈、不断迭代的挖掘新的实体与关系，从而实现产品知识库的更新。

该产品知识库在跨境撮合有多个场景应用，包括企业参会意图识别、智能匹配、语义搜索、相似文本计算等。

步骤104：将所述知识库中的词加入到分词词典中，并标记词性。

步骤106：接收多个客户输入的跨境交易基础数据，根据所述跨境交易基础数据从外部数据源获得跨境交易补充数据，所述跨境交易基础数据和所述跨境交易补充数据组成跨境交易文本信息。

具体的，由于现有技术中提供的信息可能不全，现有技术无法从提供的信息中精准识别客户意图进行匹配，所以本发明采用了如下数据获取与处理方式。

跨境撮合系统：接收来自系统的企业基本信息、企业经营信息、企业参加撮合会供需描述等数据；

互联网：获取来自企业官网的简介信息、企业招聘网站等数据；

第三方系统：获取工商司法海关等数据。

步骤108：通过机器翻译方式对多个跨境交易文本信息进行翻译，将多个跨境交易文本信息翻译成同一语言的多个跨境交易文本信息。

机器翻译：即用计算机实现从源数据到目标语言转换的过程，是自然语言处理的重要研究领域之一。

步骤110：利用分词词典，通过自然语言处理(引擎)方式对多个跨境交易文本信息进行分词提取处理，获得每个客户对应的交易供需属性信息。

自然语言处理(NLP，Neuro Linguistic Programming)是计算机科学、人工智能、语言学的交叉学科，实现词法与句法分析、命名实体识别、机器翻译、信息抽取与过滤、文本分类与聚类、自动摘要、舆情分析等任务。

分词技术是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。通常在数据挖掘、精准推荐和自然语言处理工作中用到中文分词技术，使计算机自动对中文文本进行词语的切分。

基于此，由于现有技术中采用文本的方式录入供需描述为多语种的文本类信息，不同的语种匹配难度较大，因此，本发明对跨境交易文本信息进行了翻译，比如，有中国企业的，可以外国企业的跨境交易文本信息翻译成中文；两者是不同外语的外国企业的，可以均翻译成英文或翻译成其中一个国家使用的语言。

具体的，可以从多个维度对多个跨境交易文本信息进行分词提取处理。比如，抽取企业的产品、行业、意向国家和地区、买卖(这四个维度)等信息。

交易供需属性信息及NLP引擎处理结果如表1所示：

表1

步骤112：基于知识库和每个客户对应的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，获得多个客户匹配对，将所述多个客户匹配对按匹配度进行降序排列，输出匹配度大于预设匹配度值时对应的客户匹配对。

具体的，基于所述产品词、关系词、产品词和关系词之间的语义关系，利用不同维度下的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，获得不同维度下的匹配度；

对所述不同维度下的匹配度赋予权重值；

举例说明：

以国内企业“供”匹配海外企业“求”、国内企业“求”匹配海外企业“供”的形式为主，在产品、行业、国家和地区、买卖等维度分别进行匹配，并灵活赋予每个维度一定的权重，最终计算得到匹配度。

并以产品知识库作为支撑，找到和匹配关键词相同和具有语义关系(同义、上位、下位、相关)的关键词对应的企业对。如：在上述例子中，国内A企业寻找“布料”，而海外企业B可以提供“棉布”、“纱布”，“棉布”、“纱布”是一种“布料”，因此两个企业可以匹配。

具体匹配算法如图4所示。

步骤114：返回所述匹配度大于预设匹配度值时对应的客户匹配对至相应的客户，以匹配对作为后续洽谈排桌的依据。

基于同一发明构思，本发明实施例中还提供了一种跨境交易撮合匹配装置，如下面的实施例所述。由于跨境交易撮合匹配装置解决问题的原理与跨境交易撮合匹配方法相似，因此跨境交易撮合匹配装置的实施可以参见跨境交易撮合匹配方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是本发明实施例的跨境交易撮合匹配装置的结构框图，如图5所示，包括：

知识库构建模块02，用于利用知识图谱方式构建知识库；

分词词典模块04，用于将所述知识库中的词加入到分词词典中，并标记词性；

数据获取模块06，用于接收多个客户输入的跨境交易基础数据，根据所述跨境交易基础数据从外部数据源获得跨境交易补充数据，所述跨境交易基础数据和所述跨境交易补充数据组成跨境交易文本信息；

翻译模块08，用于通过机器翻译方式对多个跨境交易文本信息进行翻译，将多个跨境交易文本信息翻译成同一语言的多个跨境交易文本信息；

NLP分词提取模块10，用于利用分词词典，通过自然语言处理方式对多个跨境交易文本信息进行分词提取处理，获得每个客户对应的交易供需属性信息；

匹配模块12，用于基于知识库和每个客户对应的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，获得多个客户匹配对，将所述多个客户匹配对按匹配度进行降序排列，输出匹配度大于预设匹配度值时对应的客户匹配对；

匹配度返回模块14，用于返回所述匹配度大于预设匹配度值时对应的客户匹配对至相应的客户。

在本发明实施例中，知识库构建模块02具体用于：

从不同数据源获取产品相关信息；

基于所述产品词、关系词、产品词和关系词之间的语义关系构建产品知识库。

在本发明实施例中，知识库构建模块02具体用于：

采用neo4j图数据库存储所述产品词、关系词、产品词和关系词之间的语义关系。

在本发明实施例中，NLP分词提取模块10具体用于：

基于所述产品词、关系词、产品词和关系词之间的语义关系，从多个维度对多个跨境交易文本信息进行分词提取处理，获得每个客户对应的多个维度下的交易供需属性信息；

匹配模块12具体用于：

对所述不同维度下的匹配度赋予权重值；

本发明综合运用知识图谱技术、自然语言处理技术实现：自主构建专业领域知识库，基于知识库，实现自动解析企业的自然语言文本数据，提取多维度实体。在进行企业匹配时，同样就知识库，计算实体间关系，智能高效地完成匹配，并提升匹配精准度，促成更多商业合作的达成。此外知识库支持自主更新，可收录新词并学习语义关系，因此，可以识别新兴的产品、行业等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨境交易撮合匹配方法，其特征在于，包括：

利用知识图谱方式构建知识库；

将所述知识库中的词加入到分词词典中，并标记词性；

利用知识图谱方式构建知识库，包括：

从不同数据源获取产品相关信息；

利用知识图谱方式构建知识库，还包括：

对所述不同维度下的匹配度赋予权重值；

2.如权利要求1所述的跨境交易撮合匹配方法，其特征在于，所述产品知识库采用neo4j图数据库存储所述产品词、关系词、产品词和关系词之间的语义关系。

3.如权利要求1所述的跨境交易撮合匹配方法，其特征在于，利用分词词典，通过自然语言处理方式对多个跨境交易文本信息进行分词提取处理，获得每个客户对应的交易供需属性信息，包括：

基于知识库，从多个维度对多个跨境交易文本信息进行分词提取处理，获得每个客户对应的多个维度下的交易供需属性信息；

基于知识库和每个客户对应的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，包括：

基于知识库，利用不同维度下的交易供需属性信息，将其中一个客户和其他每一个客户分别进行跨境交易撮合匹配，获得不同维度下的匹配度；

对所述不同维度下的匹配度赋予权重值；

4.一种跨境交易撮合匹配装置，其特征在于，包括：

知识库构建模块，用于利用知识图谱方式构建知识库；

知识库构建模块具体用于：

从不同数据源获取产品相关信息；

知识库构建模块具体用于：

对所述不同维度下的匹配度赋予权重值；

5.如权利要求4所述的跨境交易撮合匹配装置，其特征在于，知识库构建模块具体用于：

6.如权利要求4所述的跨境交易撮合匹配装置，其特征在于，NLP分词提取模块具体用于：

匹配模块具体用于：

对所述不同维度下的匹配度赋予权重值；

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一项所述方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至3任一项所述方法的计算机程序。