CN110727761B - 对象信息获取方法、装置及电子设备 - Google Patents

对象信息获取方法、装置及电子设备 Download PDF

Info

Publication number
CN110727761B
CN110727761B CN201910872413.1A CN201910872413A CN110727761B CN 110727761 B CN110727761 B CN 110727761B CN 201910872413 A CN201910872413 A CN 201910872413A CN 110727761 B CN110727761 B CN 110727761B
Authority
CN
China
Prior art keywords
session
information
scene
session information
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910872413.1A
Other languages
English (en)
Other versions
CN110727761A (zh
Inventor
田元
沈奕杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910872413.1A priority Critical patent/CN110727761B/zh
Publication of CN110727761A publication Critical patent/CN110727761A/zh
Application granted granted Critical
Publication of CN110727761B publication Critical patent/CN110727761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Abstract

本公开提供了一种基于语义识别的对象信息获取方法、基于语义识别的对象信息获取装置以及电子设备,涉及人工智能技术领域的自然语言处理和机器学习等技术。本公开实施例中的方法包括:确定包括当前会话主体的会话群组,并获取所述会话群组的群组会话数据;对所述群组会话数据进行语义识别以得到主题会话信息以及与所述主题会话信息相对应的关键会话信息;获取所述当前会话主体的对象需求信息,并将所述对象需求信息与所述关键会话信息进行匹配检测;当所述对象需求信息与所述关键会话信息匹配成功时,将与所述关键会话信息相对应的主题会话信息确定为所述当前会话主体的对象信息。该方法具有对象信息获取效率高、准确性好等优点。

Description

对象信息获取方法、装置及电子设备
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种基于语义识别的对象信息获取方法、基于语义识别的对象信息获取装置以及电子设备。
背景技术
对于负责商品采购或者商品销售的交易团队而言,在交易时间段内,一般需要交易员在各种交易沟通群组中人工阅读聊天信息,在大量的聊天记录中查找与自身经营商品相关的聊天信息。当查找到与自身交易需求相匹配的聊天消息后,再与消息发送方做进一步地沟通以促成交易。
在这种交易方式下,交易员需要反复切换各个沟通群组查看商机,并人工进行信息检索和记录。交易的匹配与达成完全依赖人工的消息查看与商品维护,受限于交易员的熟练程度、消息检索与查找能力,交易信息的获取效率和准确性均难以保证。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种基于语义识别的对象信息获取方法、基于语义识别的对象信息获取装置以及电子设备,进而至少在一定程度上克服相关技术中存在的交易信息获取效率低、准确性差等技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供一种基于语义识别的对象信息获取方法,该方法包括:
确定包括当前会话主体的会话群组,并获取所述会话群组的群组会话数据;
对所述群组会话数据进行语义识别以得到主题会话信息以及与所述主题会话信息相对应的关键会话信息;
获取所述当前会话主体的对象需求信息,并将所述对象需求信息与所述关键会话信息进行匹配检测;
当所述对象需求信息与所述关键会话信息匹配成功时,将与所述关键会话信息相对应的主题会话信息确定为所述当前会话主体的对象信息。
根据本公开实施例的一个方面,提供一种基于语义识别的对象信息获取装置,该装置包括:
会话数据获取模块,用于确定包括当前会话主体的会话群组,并获取所述会话群组的群组会话数据;
语义识别模块,用于对所述群组会话数据进行语义识别以得到主题会话信息以及与所述主题会话信息相对应的关键会话信息;
信息匹配检测模块,用于获取所述当前会话主体的对象需求信息,并将所述对象需求信息与所述关键会话信息进行匹配检测;
对象信息确定模块,用于当所述对象需求信息与所述关键会话信息匹配成功时,将与所述关键会话信息相对应的主题会话信息确定为所述当前会话主体的对象信息。
在本公开的一些实施例中,基于以上技术方案,所述语义识别模块包括:
主题会话信息获取模块,用于获取对所述群组会话数据进行闲聊会话信息过滤后得到的主题会话信息;
会话场景识别模块,用于对所述主题会话信息进行会话场景识别以得到所述主题会话信息中的目标场景会话信息;
命名实体识别模块,用于对所述目标场景会话信息进行命名实体识别以得到与所述目标场景会话信息相对应的关键会话信息。
在本公开的一些实施例中,基于以上技术方案,所述主题会话信息获取模块包括:
会话目的识别模块,用于对所述群组会话数据进行会话目的识别,以判断所述群组会话数据中的会话信息是否为闲聊会话信息或者主题会话信息;
闲聊会话信息过滤模块,用于根据会话目的识别结果滤除所述群组会话数据中的闲聊会话信息以得到所述主题会话信息。
在本公开的一些实施例中,基于以上技术方案,所述会话场景包括主题会话场景和其他会话场景;所述会话场景识别模块包括:
会话场景分类模块,用于将所述主题会话信息输入预先训练的场景分类模型,以判断所述主题会话信息的会话场景是否为主题会话场景或者其他会话场景;
目标场景会话信息确定模块,用于当判定所述主题会话信息的会话场景为主题会话场景时,将所述主题会话信息确定为目标场景会话信息。
在本公开的一些实施例中,基于以上技术方案,所述命名实体识别模块包括:
正则匹配模块,用于利用正则表达式对所述目标场景会话信息进行正则匹配检测以得到所述目标场景会话信息中的正则匹配关键词;
单词匹配模块,用于利用单词查找树对所述目标场景会话信息进行单词匹配检测以得到所述目标场景会话信息中的单词匹配关键词;
模型识别模块,用于利用预先训练的命名实体识别模型对所述目标场景会话信息进行命名实体识别以得到所述目标场景会话信息中的命名实体关键词;
关键词汇总模块,用于根据所述正则匹配关键词、所述单词匹配关键词以及所述命名实体关键词确定与所述主题会话信息相对应的关键会话信息。
在本公开的一些实施例中,基于以上技术方案,所述信息匹配检测模块包括:
对象需求统计数据获取模块,用于获取所述当前会话主体的对象需求统计数据;
对象需求信息获取模块,用于对所述对象需求统计数据进行结构化处理以得到对象需求信息。
在本公开的一些实施例中,基于以上技术方案,所述对象信息获取装置还包括:
脱敏处理模块,用于对所述群组会话数据进行脱敏处理。
在本公开的一些实施例中,基于以上技术方案,所述对象信息获取装置还包括:
会话主体确定模块,用于当所述对象需求信息与所述关键会话信息匹配成功时,将与所述关键会话信息相关的会话主体确定为所述当前会话主体的目标会话主体;
匹配列表生成模块,用于根据所述目标会话主体生成与所述主题会话信息相关的会话主体匹配列表。
根据本公开实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的基于语义识别的对象信息获取方法。
根据本公开实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的基于语义识别的对象信息获取方法。
在本公开实施例提供的技术方案中,通过对群组会话数据进行语义识别可以从海量的聊天信息中筛选出与当前会话主体的交易需求相关的商机或者线索,而且可以做到实时监测并更新交易信息,使得用户能够高效且准确地找到自身关注的交易信息,提高促成交易的成功率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了应用本公开技术方案的示例性系统架构示意图。
图2示意性地示出了本公开一些实施例中基于语义识别的对象信息获取方法的步骤流程图。
图3示意性地示出了本公开实施例中对群组会话数据进行语义识别的步骤流程图。
图4示意性地示出了本公开实施例中对群组会话数据进行闲聊会话信息过滤的步骤流程图。
图5示意性地示出了本公开实施例中对主题会话信息进行会话场景识别的步骤流程图。
图6示意性地示出了对目标场景会话信息进行命名实体识别的步骤流程图。
图7示意性地示出了本公开实施例中获取结构化对象需求信息的步骤流程图。
图8示意性地示出了本公开实施例中生成会话主体匹配列表的步骤流程图。
图9示意性地示出了在一应用场景下获取对象需求信息的智能插件用户界面视图。
图10示意性地示出在一应用场景下获取对象信息的流程及结构框架示意图。
图11示意性地示出了在一应用场景下利用匹配信息列表进行交易会话的用户界面示意图。
图12示意性地示出了本公开实施例中用于保存相关交易信息的数据共享系统。
图13示意性地示出了本公开一些实施例中区块链的组成结构。
图14示意性地示出了本公开一些实施例中由区块链生成区块的过程。
图15示意性地示出了在本公开一些实施例中的基于语义识别的对象信息获取装置的结构框图。
图16示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本公开的相关技术中,用户利用QQ或者微信等即时通讯工具进行交易信息的发布和接收,尤其可以利用即时通讯工具建立交易沟通群组,以便群组内的交易员能够互通有无,广泛传播相关行业领域的交易信息,进而能够使买卖双方可以快速地相互匹配以促成交易。由于不同交易主体各自具有不同的交易需求,用户一般会通过电子文档或者电子表格等形式对自身的商品交易需求进行管理和维护。对于用户而言,即时通讯信息与商品对象需求信息实际上是相互割裂的。在交易时段内,用户不仅需要反复切换各种交易沟通群组以实时查看群组内的聊天记录,而且也需要反复确认当前商品的采购/销售动态以及库存现状,这就导致了用户在处理交易信息时存在一定的时间延迟,因此也很容易错失商机而导致交易失败。
针对相关技术中存在的以上问题,本公开提供了一种基于语义识别的对象信息获取方法、基于语义识别的对象信息获取装置以及电子设备。图1示出了应用本公开技术方案的示例性系统架构示意图。
如图1所示,系统架构100可以包括客户端110、网络120和服务端130。客户端110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种终端设备。服务端130可以包括网络服务器、应用服务器、数据库服务器等各种服务器设备。网络120可以是能够在客户端110和服务端130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路、无线通信链路等等。
根据实现需要,本公开实施例中的系统架构可以具有任意数目的客户端、网络和服务端。例如,服务端130可以是由多个服务器设备组成的服务器群组。另外,本公开实施例中的基于语义识别的对象信息获取方法可以应用于客户端110,也可以应用于服务端130,本公开对此不做特殊限定。
举例而言,客户端110上可以安装即时通讯工具、交易需求管理工具以及实现本公开技术方案所需的智能交易插件。通过即时通讯工具可以实时获取当前会话主体所在会话群组内的群组会话数据,而交易需求管理工具则可以管理并实时更新当前会话主体的对象需求信息。客户端110上安装的智能交易插件可以自动采集相关群组会话数据和对象需求信息,并将采集到的数据和信息发送至服务端130,再由服务端130对相关数据和需求进行分析和挖掘。
服务端130上可以安装基于语义识别的对象信息获取装置,在获取到由客户端110采集的群组会话数据和对象需求信息后,通过对二者进行语义识别和匹配检测,以从群组会话数据中筛选得到与当前会话主体的对象需求信息相吻合的对象信息。后续可以由用户对对象信息进行跟进以促成交易。
另外,服务端130上可以安装基于人工智能技术的机器学习模型,用以对相关数据和信息进行语义识别。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本公开提供的技术方案主要涉及人工智能的自然语言处理(Nature Languageprocessing,NLP)和机器学习(Machine Learning,ML)等技术。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
下面结合具体实施方式对本公开提供的基于语义识别的对象信息获取方法、基于语义识别的对象信息获取装置、计算机可读介质以及电子设备做出详细说明。
图2示意性地示出了本公开一些实施例中基于语义识别的对象信息获取方法的步骤流程图。如图2所示,该方法主要可以包括以下步骤:
步骤S210.确定包括当前会话主体的会话群组,并获取会话群组的群组会话数据。
当前会话主体可以是具有某种交易需求的企业或者个人,其交易需求可以是针对某种商品或者服务的采购需求或者销售需求,例如可以是钢材交易需求、房产交易需求等等。会话群组可以是当前会话主体在各种即时通讯工具上所创建或者加入的用于沟通交易信息的聊天群组,例如可以是QQ群或者微信群。本步骤首先确定当前会话主体所加入的会话群组,同时获取会话群组的群组会话数据,该群组会话数据例如可以是当前会话主体所在会话群组的全部会话数据,也可以是仅包含与当前会话主体有关的部分会话数据,或者可以是与当前会话主体有关的在一预设时间区间内的会话数据,另外也可以是当前会话主体在会话群组中所发布的一条或者多条会话数据。一般而言,为了扩大交易信息的获取范围,本步骤可以确定包括当前会话主体的多个会话群组,并分别获取各个会话群组的群组会话数据。
步骤S220.对群组会话数据进行语义识别以得到主题会话信息以及与主题会话信息相对应的关键会话信息。
步骤S210中获取到的群组会话数据可以是由会话群组中的各个交易主体发布的按照时间序列排布的会话信息组成,每一条会话信息可以包含不同的语义信息,该语义信息即代表了作为信息发送方的交易主体发送该会话信息的会话目的。本步骤利用自然语言处理技术对群组会话数据进行语义识别,可以得到群组会话数据中各条会话信息的语义信息,基于该语义信息可以对各条会话信息进行分类。举例而言,通过语义识别确定某一会话信息所表达的语义是购买或者销售某种商品的需求,那么该条会话信息即可被确定为主题会话信息。针对主题会话信息,本步骤还将获取与之对应的关键会话信息,该关键会话信息主要可以是主题会话信息中与交易内容相关的信息,例如可以包括待交易商品的名称、规格、数量等等。
步骤S230.获取当前会话主体的对象需求信息,并将对象需求信息与关键会话信息进行匹配检测。
用于获取主题会话信息的会话群组一般是专门用于进行交易信息交流和沟通的社交群组,因此通过对会话群组的群组会话数据进行语义识别可以得到大量的主题会话信息。而且,由于不同交易主体的交易需求具有多样性,由步骤S220得到的关键会话信息也是多种多样的。为了从大量的关键会话信息中得到当前会话主体真正关注的商机或者线索,本步骤需要获取当前会话主体的对象需求信息,该对象需求信息可以包括当前会话主体希望购买或者销售的商品的名称、规格、数量等信息。通过对当前会话主体的对象需求信息以及由步骤S220得到的关键会话信息进行匹配检测,可以判断二者涉及的相关信息是否相互匹配。
步骤S240.当对象需求信息与关键会话信息匹配成功时,将与关键会话信息相对应的主题会话信息确定为当前会话主体的对象信息。
根据步骤S230进行匹配检测的结果,如果判断当前会话主体的对象需求信息能够与步骤S220获取得到的一个或者多个关键会话信息匹配成功,那么与这些关键会话信息相对应的主题会话信息便可以确定为当前会话主体的对象信息。例如,当前会话主体的对象需求信息涉及某一商品的购买需求,那么与之对应的对象信息则可以是针对同一商品的销售信息。在一些可选的实施方式中,对象信息可以被显示在客户端的显示界面上。基于该对象信息,用户可以获取消息来源和位置,具体可以确定对象信息所在的会话群组以及对象信息在群组会话数据中的位置,从而可以精准地查看与当前会话主体的交易需求相关的聊天记录以便促成交易。另外,本公开实施例也可以直接将对象信息以及发出该对象信息的会话主体的联系方式推送给用户,由用户与该会话主体做进一步地沟通交流。
在一应用场景下,利用本公开实施例提供的技术方案获取到的对象信息可以是用于促成当前会话主体与其他主体进行商品交易的交易信息。通过对群组会话数据进行语义识别可以从海量的聊天信息中筛选出与当前会话主体的交易需求相关的商机或者线索,而且可以做到实时监测并更新交易信息,使得用户能够高效且准确地找到自身关注的交易信息,提高促成交易的成功率。
获取对象信息的关键在于对群组会话数据进行语义识别,图3示意性地示出了本公开实施例中对群组会话数据进行语义识别的步骤流程图。如图3所示,在以上实施例的基础上,步骤S220.对群组会话数据进行语义识别以得到主题会话信息以及与主题会话信息相对应的关键会话信息,可以包括以下步骤:
步骤S310.获取对群组会话数据进行闲聊会话信息过滤后得到的主题会话信息。
在各个会话群组的群组会话数据中除了包含与交易内容相关的主题会话信息以外,一般还会掺杂大量的与交易内容无关的闲聊内容。为了提高交易信息获取的精准性,可以首先对群组会话数据进行过滤处理,滤除其中包含的闲聊会话信息后得到主题会话信息。在一些可选的实施方式中,客户端可以先对群组会话数据进行过滤处理,然后将得到的主题会话信息上传至服务端,由服务端进行后续的识别处理。在另一些实施方式中,客户端也可以直接将群组会话数据上传至服务端,由服务端过滤其中的闲聊会话信息。
步骤S320.对主题会话信息进行会话场景识别以得到主题会话信息中的目标场景会话信息。
在得到与交易内容相关的主题会话信息后,本步骤对其进行会话场景识别。在主题会话信息中,除了直接与商品买卖相关的会话信息,通常还会包括有一些商品规格咨询、商品产地咨询、交易流程沟通等与商品买卖的直接关联程度相对较低的其他会话信息。通过识别会话场景可以从主题会话信息中筛选出与商品买卖相关程度较高的目标场景会话信息。
步骤S330.对目标场景会话信息进行命名实体识别以得到与目标场景会话信息相对应的关键会话信息。
针对步骤S320识别得到的目标场景会话信息,本步骤对其进行命名实体识别,命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通过命名实体识别可以从目标场景会话信息中提取得到与目标场景会话信息相对应的关键会话信息,例如可以包括交易商品的名称、规格、数量等信息。
在本公开实施例中,经过对群组会话数据进行闲聊数据过滤、会话场景识别和命名实体识别后,可以获得群组会话数据中的会话语义,从而获得与交易内容关系紧密的关键会话信息。
图4示意性地示出了本公开实施例中对群组会话数据进行闲聊会话信息过滤的步骤流程图。如图4所示,在以上各实施例的基础上,步骤S310.获取对群组会话数据进行闲聊会话信息过滤后得到的主题会话信息,可以进一步包括以下步骤:
步骤S410.对群组会话数据进行会话目的识别,以判断群组会话数据中的会话信息是否为闲聊会话信息或者主题会话信息。
通过对群组会话数据进行会话目的识别,可以获取群组会话数据中每条会话信息对应的会话目的。若某一群组成员发送一条会话信息的目的是闲聊,那么该条会话信息可以被判定为闲聊会话信息;相反地,如果某一群组成员发送一条会话信息的目的是进行商品交易,那么该条会话信息可以被判定为主题会话信息。
步骤S420.根据会话目的识别结果滤除群组会话数据中的闲聊会话信息以得到主题会话信息。
根据步骤S410进行会话目的识别得到的识别结果,可以将群组会话数据中的各条会话信息划分为闲聊会话信息和主题会话信息两类,本步骤对群组会话数据中的闲聊会话信息进行过滤,得到以商品交易作为会话目的的主题会话信息。
在一些可选的实施方式中,可以预先训练用于对群组会话数据中的会话信息进行会话目的识别的机器学习模型,例如可以采用逻辑回归模型(Logistic Regression,简称LR)判断一条会话信息是否为闲聊会话信息或者主题会话信息。在过滤掉群组会话数据中的大量闲聊数据后,可以得到谈论交易内容的主题会话信息。
针对经过会话目的识别后得到的主题会话信息,可以继续进行会话场景识别。在本公开的一些实施例中,会话场景可以包括目标会话场景和其他会话场景。在与商品交易相关的应用场景中,目标会话场景可以进一步包括买方会话场景和卖方会话场景。其中,买方会话场景可以是基于会话群组中某一群组成员发起的商品购买需求而产生的交易会话场景;相应地卖方会话场景可以是基于会话群组中某一群组成员发起的商品销售需求而产生的交易会话场景;其他会话场景可以是除买方会话场景和卖方会话场景以外的其他场景。
图5示意性地示出了本公开实施例中对主题会话信息进行会话场景识别的步骤流程图。如图5所示,在以上各实施例的基础上,步骤S320.对主题会话信息进行会话场景识别以得到主题会话信息中的目标场景会话信息,可以包括以下步骤:
步骤S510.将主题会话信息输入预先训练的场景分类模型,以判断主题会话信息的会话场景是否为目标会话场景或者其他会话场景。
为了对主题会话信息进行会话场景判别,本公开实施例可以预先训练一场景分类模型。例如可以采用基于卷积神经网络的文本分类模型Text-CNN,利用历史交易的群组会话数据组成训练集对其进行迭代训练,得到能够准确识别会话场景的场景分类模型。将主题会话信息输入训练完成的场景分类模型后,由场景分类模型进行特征提取和计算后可以输出该主题会话信息的会话场景,进而可以判断该主题会话信息的会话场景是否为买方会话场景、卖方会话场景或者其他会话场景。
步骤S520.当判定主题会话信息的会话场景为目标会话场景时,将主题会话信息确定为目标场景会话信息。
根据步骤S510中对会话场景的判断结果,如果判定主题会话信息的会话场景为买方会话场景或者卖方会话场景,那么该主题会话信息可以被确定为目标场景会话信息。一般而言,目标场景会话信息可以是一组会话信息中排在首位的信息,例如可以是会话群组中某一群组成员发起商品购买需求或者商品销售需求的信息。对于目标场景会话信息,会话群组中的其他群组成员可以做出回应,例如可以对相应商品的规格、数量等详细信息进行询问和沟通,这些对买卖会话信息做出的回应的主题会话信息即可被判定为其他会话场景下的会话信息。
针对以上实施例通过会话场景识别得到的目标场景会话信息,可以对其进行命名实体识别以提取关键性的语义信息。图6示意性地示出了对目标场景会话信息进行命名实体识别的步骤流程图。如图6所示,在以上各实施例的基础上,步骤S330.对目标场景会话信息进行命名实体识别以得到与目标场景会话信息相对应的关键会话信息,可以包括以下步骤:
步骤S610.利用正则表达式对目标场景会话信息进行正则匹配检测以得到目标场景会话信息中的正则匹配关键词。
对于目标场景会话信息中的一部分命名实体具有明确的命名规则,例如“说”、“经理”等词语可作为人物名称的下文,“公司”、“单位”等词语可作为组织机构名称的结尾。针对这样一些符合特征规则的命名实体,本步骤可以利用预先编写的正则表达式对其进行识别。具体可以是利用正则表达式对目标场景会话信息进行正则匹配检测,如果目标场景会话信息中的某一词语能够命中正则表达式的命名规则,该词语即被作为正则匹配关键词。
步骤S620.利用单词查找树对目标场景会话信息进行单词匹配检测以得到目标场景会话信息中的单词匹配关键词。
针对一些具有固定名称的命名实体,本步骤可以利用预先构建的单词查找树(Trie)进行单词匹配检测,例如钢材、铝材等各种工业品一般都具有规定的型号和规格术语,针对这类具有固定名称的命名实体,利用单词查找树进行单词匹配检测可以快速识别与之对应的单词匹配关键词。
步骤S630.利用预先训练的命名实体识别模型对目标场景会话信息进行命名实体识别以得到目标场景会话信息中的命名实体关键词。
除了具有明显的命名规则的命名实体以及具有固定名称的能够纳入单词查找树的命名实体之外,目标场景会话信息中还包括有大量的没有明显命名规则和固定名称的命名实体。针对这样一些命名实体,本步骤可以利用预先训练的命名实体识别模型对其进行识别,从而得到命名实体关键词。举例而言,本步骤中使用的命名实体识别模型可以是条件随机场模型(Conditional Random Field,简称CRF)、隐马尔柯夫模型(Hidden MarkovModel,简称HMM)或者最大熵马尔柯夫模型(Maximum Entropy Markov Model)的命名实体识别模型等等。
步骤S640.根据正则匹配关键词、单词匹配关键词以及命名实体关键词确定与目标场景会话信息相对应的关键会话信息。
由以上步骤分别利用正则表达式、单词查找树和命名实体识别模型进行命名实体的识别后,可以分别得到正则匹配关键词、单词匹配关键词以及命名实体关键词。一般而言,由以上三个步骤得到的三种类型的关键词可以存在一定程度的重叠,例如,同一命名实体对应的关键词可以在步骤S610中被识别为正则匹配关键词,同时又可以在步骤S630中被识别为命名实体关键词。本步骤可以对三种类型的关键词进行整合,以最终确定与目标场景会话信息相对应的关键会话信息。
通过命名实体识别得到的关键会话信息通常以结构化数据的形式进行存储,以便于将其与当前会话主体的对象需求信息进行匹配检测。图7示意性地示出了本公开实施例中获取结构化对象需求信息的步骤流程图。如图7所示,在以上各实施例的基础上,步骤S230中的获取当前会话主体的对象需求信息,可以包括以下步骤:
步骤S710.获取当前会话主体的对象需求统计数据。
当前会话主体的交易需求一般是多种多样的,本步骤首先获取当前会话主体的对象需求统计数据。对象需求统计数据可以是以电子文档或者电子表格的形式保存并进行人工维护的数据,另外也可以是从企业资源计划(Enterprise Resource Planning,简称ERP)等信息管理系统中直接导出的数据。
步骤S720.对对象需求统计数据进行结构化处理以得到对象需求信息。
为了方便信息的管理和监测,本步骤可以对获取到的对象需求统计数据进行结构化处理以得到具有结构化形式的对象需求信息。可选地,本公开实施例可以利用基于自然语言处理技术训练得到的机器学习模型对对象需求统计数据进行信息识别,从中提取得到当前会话主体需要采购或者销售的商品品牌、商品名称、商品数量、商品规格等结构化的对象需求信息。
本公开实施例通过对当前会话主体的对象需求统计数据进行结构化处理可以得到具有结构化形式的对象需求信息,不仅有利于用户直接进行数据更新和维护,而且在与群组会话数据中的关键会话信息进行匹配检测时也具有更高的检测效率和检测准确性。
通过匹配检测可以得到与当前会话主体的对象需求信息具有匹配关系的关键会话信息,这部分关键会话信息可以作为对象信息推送给相关用户。另外,与对象信息相关的会话主体也可以被同时推送给用户。图8示意性地示出了本公开实施例中生成会话主体匹配列表的步骤流程图。如图8所示,基于以上各实施例,在步骤S230.获取当前会话主体的对象需求信息,并将对象需求信息与关键会话信息进行匹配检测之后,还可以包括以下步骤:
步骤S810.当对象需求信息与关键会话信息匹配成功时,将与关键会话信息相关的会话主体确定为当前会话主体的目标会话主体。
根据步骤S230进行匹配检测的结果,如果判断当前会话主体的对象需求信息能够与步骤S220获取得到的一个或者多个关键会话信息匹配成功,那么与该关键会话信息相关的会话主体可以被确定为当前会话主体的目标会话主体。
步骤S820.根据所述目标会话主体生成与所述主题会话信息相关的会话主体匹配列表。
当群组会话数据中的会话信息较多时,能够与对象需求信息成功匹配的关键会话信息也会较多,相应地可以确定多个目标会话主体。针对这些目标会话主体,本步骤可以对其进行组合排列以形成会话主体匹配列表。
例如,产生群组会话数据的会话群组是QQ群或者微信群,那么由步骤
S810确定的目标会话主体可以是群组中的QQ用户或者微信用户,本步骤
对这些用户进行组合即形成由多个QQ用户或者微信用户组成的用户列表。基于该用户列表,当前会话主体可以与相关用户对象进行直接对话。
在本公开的一些实施例中,为了提高数据传输的安全性,避免出现隐私泄露的问题,在对群组会话数据进行语义识别以得到主题会话信息以及与主题会话信息相对应的关键会话信息之前,还可以对群组会话数据进行脱敏处理。当然,在其他一些实施例中,也可以先对群组会话数据进行闲聊会话信息过滤,然后针对过滤得到的主题会话信息再进行脱敏处理。脱敏处理步骤一般可以在客户端执行,经过脱敏处理后的群组会话数据或者经过脱敏处理后的会话交易信息再被传送至服务端进行后续的语义识别步骤。
下面结合一应用场景对以上各实施例提供的基于语义识别的对象信息获取方法做出详细说明。
图9示意性地示出了在一应用场景下获取对象需求信息的智能插件用户界面视图。如图9所示,本公开实施例提供的基于语义识别的对象信息获取方法可以表现为一个智能交易插件,作为当前会话主体的用户可以将用于管理商品采购信息或者商品销售信息的Excel文件直接拖拽至智能交易插件的内容导入区域,另外也可以采用手动导入文件或者手动输入采销商品信息等形式导入当前会话主体的对象需求统计数据。在对相关对象需求统计数据进行自然语言处理后可以得到对象需求信息,其中包括了用户采销的商品品牌、商品数量、商品规格等信息。这部分对象需求信息以交易需求列表910的形式显示在智能交易插件的用户界面上。
针对交易需求列表910中的对象需求信息,通过执行本公开实施例提供的基于语义识别的对象信息获取方法可以得到群组会话数据中与之匹配的关键会话信息,这些关键会话信息在智能交易插件的用户界面上显示为一个与对象需求信息的内容具有一一对应关系的匹配信息列表920。
图10示意性地示出在一应用场景下获取对象信息的流程及结构框架示意图。如图10所示,在本地客户端1010可以采集相关会话群组中的群组会话数据,在对群组会话数据进行闲聊数据过滤和脱敏处理后,可以将相关脱敏数据上传至云端服务器的业务后台1020。
业务后台1020将接收到的脱敏数据传送至数据后台1030,由数据后台1030对数据进行分发管理。
数据后台1030首先将脱敏数据传送至场景分类单元1040,由场景分类单元1040对交易会话场景进行分类。图10所示的场景分类单元使用的是基于卷积神经网络的文本分类模型Text-CNN,如图中所示,脱敏数据在模型中依次经过正则预处理、词嵌入、多内核卷积处理、最大池化处理(Max Pooling)和全连接等处理过程后得到场景分类结果,该场景分类结果将被回传至数据后台1030。
数据后台1030同时将脱敏数据和场景分类单元1040得到的场景分类结果传送至命名实体识别单元1050,命名实体识别单元1050对脱敏数据中被判别为买卖场景信息的主题会话信息进行命名实体识别以得到对应于关键会话信息的关键词。针对抽取实体的不同,命名实体识别单元1050包括有正则析取子单元、Trie子单元和CRF子单元三个部分。由命名实体识别单元1050识别得到的关键词将被回传至数据后台1030。
数据后台1030将汇总得到的脱敏数据、会话场景和关键词等信息通过开放平台1060传送给相关交易主体的供需匹配引擎1070,在供需匹配引擎1070上可以高效匹配已有的卖方/卖方的上架商品,实时撮合交易。供需匹配引擎1070匹配得到的信息可以被显示在智能交易插件的用户界面上,亦即形成如图9中所示的匹配信息列表920。
图11示意性地示出了在一应用场景下利用匹配信息列表进行交易会话的用户界面示意图。如图11所示,展开匹配信息列表920后,可以得到由多个目标会话主体组成的会话主体匹配列表1110,用户点击该列表中的某一个用户头像/姓名,便可以一键发起群组临时会话,转入私聊模式,与相关交易对象确认交易详情。
在一些可选的实施方式中,由服务端进行语义识别得到的脱敏数据、会话场景、关键词等信息除了通过开放平台1060传送给相关交易主体的供需匹配引擎1070以外,也可以通过区块链技术进行数据共享。
图12示意性地示出了本公开实施例中用于保存相关交易信息的数据共享系统。如图12所示,数据共享系统1200是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点1210,多个节点1210可以是指数据共享系统中各个客户端。每个节点1210在进行正常工作时可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。
表1
节点名称 节点标识
节点1 117.114.151.174
节点2 117.116.189.145
节点N 119.123.789.258
数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成,图13示意性地示出了本公开一些实施例中区块链的组成结构。如图13所示,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
图14示意性地示出了本公开一些实施例中由区块链生成区块的过程。如图14所示,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享系统中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享系统中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的基于语义识别的对象信息获取方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的基于语义识别的对象信息获取方法的实施例。
图15示意性地示出了在本公开一些实施例中的基于语义识别的对象信息获取装置的结构框图。如图15所示,对象信息获取装置1500主要可以包括:
会话数据获取模块1510,用于确定包括当前会话主体的会话群组,并获取会话群组的群组会话数据;
语义识别模块1520,用于对群组会话数据进行语义识别以得到主题会话信息以及与主题会话信息相对应的关键会话信息;
信息匹配检测模块1530,用于获取当前会话主体的对象需求信息,并将对象需求信息与关键会话信息进行匹配检测;
对象信息确定模块1540,用于当对象需求信息与关键会话信息匹配成功时,将与关键会话信息相对应的主题会话信息确定为当前会话主体的对象信息。
在本公开的一些实施例中,基于以上各实施例,语义识别模块包括:
主题会话信息获取模块,用于获取对群组会话数据进行闲聊会话信息过滤后得到的主题会话信息;
会话场景识别模块,用于对主题会话信息进行会话场景识别以得到主题会话信息中的目标场景会话信息;
命名实体识别模块,用于对目标场景会话信息进行命名实体识别以得到与目标场景会话信息相对应的关键会话信息。
在本公开的一些实施例中,基于以上各实施例,主题会话信息获取模块包括:
会话目的识别模块,用于对群组会话数据进行会话目的识别,以判断群组会话数据中的会话信息是否为闲聊会话信息或者主题会话信息;
闲聊会话信息过滤模块,用于根据会话目的识别结果滤除群组会话数据中的闲聊会话信息以得到主题会话信息。
在本公开的一些实施例中,基于以上各实施例,会话场景包括买方会话场景、卖方会话场景和其他会话场景;会话场景识别模块包括:
会话场景分类模块,用于将主题会话信息输入预先训练的场景分类模型,以判断主题会话信息的会话场景是否为买方会话场景、卖方会话场景或者其他会话场景;
目标场景会话信息确定模块,用于当判定主题会话信息的会话场景为买方会话场景或者卖方会话场景时,将主题会话信息确定为目标场景会话信息。
在本公开的一些实施例中,基于以上各实施例,命名实体识别模块包括:
正则匹配模块,用于利用正则表达式对目标场景会话信息进行正则匹配检测以得到目标场景会话信息中的正则匹配关键词;
单词匹配模块,用于利用单词查找树对目标场景会话信息进行单词匹配检测以得到目标场景会话信息中的单词匹配关键词;
模型识别模块,用于利用预先训练的命名实体识别模型对目标场景会话信息进行命名实体识别以得到目标场景会话信息中的命名实体关键词;
关键词汇总模块,用于根据正则匹配关键词、单词匹配关键词以及命名实体关键词确定与主题会话信息相对应的关键会话信息。
在本公开的一些实施例中,基于以上各实施例,信息匹配检测模块包括:
对象需求统计数据获取模块,用于获取当前会话主体的对象需求统计数据;
对象需求信息获取模块,用于对对象需求统计数据进行结构化处理以得到对象需求信息。
在本公开的一些实施例中,基于以上各实施例,对象信息获取装置还包括:
脱敏处理模块,用于对群组会话数据进行脱敏处理。
在本公开的一些实施例中,基于以上各实施例,对象信息获取装置还包括:
会话主体确定模块,用于当对象需求信息与关键会话信息匹配成功时,将与关键会话信息相关的会话主体确定为当前会话主体的目标会话主体;
匹配列表生成模块,用于根据目标会话主体生成与主题会话信息相关的会话主体匹配列表。
本公开各实施例中提供的基于语义识别的对象信息获取装置的具体细节已经在对应的方法实施例中进行了详细的描述,因此此处不再赘述。
图16示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图16示出的电子设备的计算机系统1600仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图16所示,计算机系统1600包括中央处理单元(Central Processing Unit,CPU)1601,其可以根据存储在只读存储器(Read-Only Memory,ROM)1602中的程序或者从存储部分1608加载到随机访问存储器(Random Access Memory,RAM)1603中的程序而执行各种适当的动作和处理。在RAM 1603中,还存储有系统操作所需的各种程序和数据。CPU1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output,I/O)接口1605也连接至总线1604。
以下部件连接至I/O接口1605:包括键盘、鼠标等的输入部分1606;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1607;包括硬盘等的存储部分1608;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1610上,以便于从其上读出的计算机程序根据需要被安装入存储部分1608。
特别地,根据本公开的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1609从网络上被下载和安装,和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种基于语义识别的对象信息获取方法,其特征在于,包括:
确定包括当前会话主体的会话群组,并获取所述会话群组的至少部分群组会话数据;
对所述群组会话数据进行闲聊会话信息过滤,得到表达购买或者销售商品的需求的主题会话信息;
对所述主题会话信息进行会话场景识别,得到会话场景为买方会话场景或者卖方会话场景的目标场景会话信息;
对所述目标场景会话信息进行命名实体识别,得到与交易内容相关的关键会话信息;
向智能交易插件的内容导入区域内导入以电子文档或者电子表格的形式保存的对象需求统计数据,以使所述智能交易插件对所述对象需求统计数据进行自然语言处理得到对象需求信息,并将所述对象需求信息与所述关键会话信息进行匹配检测,所述对象需求信息是所述当前会话主体购买或者销售的商品信息;
当所述对象需求信息与所述关键会话信息匹配成功时,将与所述关键会话信息相对应的主题会话信息确定为所述当前会话主体的对象信息,所述对象信息是用于促成当前会话主体与其他主体进行商品交易的交易信息。
2.根据权利要求1所述的基于语义识别的对象信息获取方法,其特征在于,对所述群组会话数据进行闲聊会话信息过滤,得到表达购买或者销售商品的需求的主题会话信息,包括:
对所述群组会话数据进行会话目的识别,以判断所述群组会话数据中的会话信息是否为闲聊会话信息或者主题会话信息;
根据会话目的识别结果滤除所述群组会话数据中的闲聊会话信息以得到所述主题会话信息。
3.根据权利要求1所述的基于语义识别的对象信息获取方法,其特征在于,所述会话场景包括目标会话场景和其他会话场景;对所述主题会话信息进行会话场景识别,得到会话场景为买方会话场景或者卖方会话场景的目标场景会话信息,包括:
将所述主题会话信息输入预先训练的场景分类模型,以判断所述主题会话信息的会话场景是否为目标会话场景或者其他会话场景;
当判定所述主题会话信息的会话场景为目标会话场景时,将所述主题会话信息确定为目标场景会话信息。
4.根据权利要求1所述的基于语义识别的对象信息获取方法,其特征在于,对所述目标场景会话信息进行命名实体识别,得到与交易内容相关的关键会话信息,包括:
利用正则表达式对所述目标场景会话信息进行正则匹配检测以得到所述目标场景会话信息中的正则匹配关键词;
利用单词查找树对所述目标场景会话信息进行单词匹配检测以得到所述目标场景会话信息中的单词匹配关键词;
利用预先训练的命名实体识别模型对所述目标场景会话信息进行命名实体识别以得到所述目标场景会话信息中的命名实体关键词;
根据所述正则匹配关键词、所述单词匹配关键词以及所述命名实体关键词确定与所述主题会话信息相对应的关键会话信息。
5.根据权利要求1所述的基于语义识别的对象信息获取方法,其特征在于,在对所述群组会话数据进行闲聊会话信息过滤之前,所述方法还包括:
对所述群组会话数据进行脱敏处理。
6.根据权利要求1所述的基于语义识别的对象信息获取方法,其特征在于,所述方法还包括:
当所述对象需求信息与所述关键会话信息匹配成功时,将与所述关键会话信息相关的会话主体确定为所述当前会话主体的目标会话主体;
根据所述目标会话主体生成与所述主题会话信息相关的会话主体匹配列表。
7.一种基于语义识别的对象信息获取装置,其特征在于,包括:
会话数据获取模块,用于确定包括当前会话主体的会话群组,并获取所述会话群组的群组会话数据;
语义识别模块,用于对所述群组会话数据进行闲聊会话信息过滤,得到表达购买或者销售商品的需求的主题会话信息;对所述主题会话信息进行会话场景识别,得到会话场景为买方会话场景或者卖方会话场景的目标场景会话信息;对所述目标场景会话信息进行命名实体识别,得到与交易内容相关的关键会话信息;
信息匹配检测模块,用于向智能交易插件的内容导入区域内导入以电子文档或者电子表格的形式保存的对象需求统计数据,以使所述智能交易插件对所述对象需求统计数据进行自然语言处理得到对象需求信息,并将所述对象需求信息与所述关键会话信息进行匹配检测,所述对象需求信息是所述当前会话主体购买或者销售的商品信息;
对象信息确定模块,用于当所述对象需求信息与所述关键会话信息匹配成功时,将与所述关键会话信息相对应的主题会话信息确定为所述当前会话主体的对象信息,所述对象信息是用于促成当前会话主体与其他主体进行商品交易的交易信息。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于:
所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于语义识别的对象信息获取方法。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任一项所述的基于语义识别的对象信息获取方法。
CN201910872413.1A 2019-09-16 2019-09-16 对象信息获取方法、装置及电子设备 Active CN110727761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910872413.1A CN110727761B (zh) 2019-09-16 2019-09-16 对象信息获取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910872413.1A CN110727761B (zh) 2019-09-16 2019-09-16 对象信息获取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110727761A CN110727761A (zh) 2020-01-24
CN110727761B true CN110727761B (zh) 2022-01-11

Family

ID=69218975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910872413.1A Active CN110727761B (zh) 2019-09-16 2019-09-16 对象信息获取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110727761B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112910754A (zh) * 2020-05-07 2021-06-04 腾讯科技(深圳)有限公司 基于群组会话的消息处理方法、装置、设备及存储介质
CN111813808A (zh) * 2020-06-10 2020-10-23 云南电网有限责任公司 一种大数据快速脱敏的方法及装置
CN113343701B (zh) * 2021-06-30 2022-08-02 广东电网有限责任公司 一种电力设备故障缺陷文本命名实体的抽取方法及装置
CN114118060B (zh) * 2021-11-10 2022-09-27 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统
CN116700968A (zh) * 2023-06-09 2023-09-05 广州银汉科技有限公司 一种基于弹性扩容的智能交互系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008045792A2 (en) * 2006-10-06 2008-04-17 Technorati, Inc. Methods and apparatus for conversational advertising
CN108520046A (zh) * 2018-03-30 2018-09-11 上海掌门科技有限公司 搜索聊天记录的方法及设备
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法
CN109582861A (zh) * 2018-10-29 2019-04-05 复旦大学 一种数据隐私信息检测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008045792A2 (en) * 2006-10-06 2008-04-17 Technorati, Inc. Methods and apparatus for conversational advertising
CN108520046A (zh) * 2018-03-30 2018-09-11 上海掌门科技有限公司 搜索聊天记录的方法及设备
CN109299469A (zh) * 2018-10-29 2019-02-01 复旦大学 一种在长文本中识别复杂住址的方法
CN109582861A (zh) * 2018-10-29 2019-04-05 复旦大学 一种数据隐私信息检测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于命名实体的Web新闻文本分类方法;潘正高等;《合肥工业大学学报(自然科学版)》;20110831;第34卷(第8期);正文第1178-1182页 *

Also Published As

Publication number Publication date
CN110727761A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110727761B (zh) 对象信息获取方法、装置及电子设备
US11782985B2 (en) Constructing imaginary discourse trees to improve answering convergent questions
US10664540B2 (en) Domain specific natural language understanding of customer intent in self-help
WO2020119272A1 (zh) 风险识别模型训练方法、装置及服务器
Xintong et al. Brief survey of crowdsourcing for data mining
CN110020660A (zh) 使用人工智能(ai)技术的非结构化过程的完整性评估
US20140250032A1 (en) Methods, systems and processor-readable media for simultaneous sentiment analysis and topic classification with multiple labels
US20140143329A1 (en) Discovering signature of electronic social networks
CA2917140A1 (en) Social network for employment search
US10817845B2 (en) Updating messaging data structures to include predicted attribute values associated with recipient entities
CN110717597A (zh) 利用机器学习模型获取时序特征的方法和装置
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
CN114090755A (zh) 基于知识图谱的回复语句确定方法、装置及电子设备
CN111027838A (zh) 一种众包任务推送方法、装置、设备及其存储介质
Kaur et al. Review of artificial intelligence with retailing sector
CN111429214B (zh) 一种基于交易数据的买卖双方匹配方法及装置
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN114266443A (zh) 数据评估方法和装置、电子设备、存储介质
CN113128196A (zh) 文本信息处理方法及其装置、存储介质
CN115222433A (zh) 一种信息推荐方法、装置及存储介质
US10692120B2 (en) System, method, and computer-readable storage medium for determining a trust circle through machine learning
EP4116884A2 (en) Method and apparatus for training tag recommendation model, and method and apparatus for obtaining tag
CN109933704A (zh) 车辆咨询信息处理方法及装置
CN114996579A (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN116775815A (zh) 对话数据的处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020334

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant