CN111324723A - 语句选取方法、语句显示方法、相关装置及计算设备 - Google Patents

语句选取方法、语句显示方法、相关装置及计算设备 Download PDF

Info

Publication number
CN111324723A
CN111324723A CN201811525230.4A CN201811525230A CN111324723A CN 111324723 A CN111324723 A CN 111324723A CN 201811525230 A CN201811525230 A CN 201811525230A CN 111324723 A CN111324723 A CN 111324723A
Authority
CN
China
Prior art keywords
statement
sentence
flow
node
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811525230.4A
Other languages
English (en)
Other versions
CN111324723B (zh
Inventor
宛言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811525230.4A priority Critical patent/CN111324723B/zh
Publication of CN111324723A publication Critical patent/CN111324723A/zh
Application granted granted Critical
Publication of CN111324723B publication Critical patent/CN111324723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语句选取方法、语句显示方法、相关装置、计算设备及介质,语句选取方法包括:基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点;根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量;选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。

Description

语句选取方法、语句显示方法、相关装置及计算设备
技术领域
本发明涉及自然语言处理领域,特别涉及一种语句选取方法、语句显示方法、相关装置、计算设备及介质。
背景技术
随着互联网技术的不断发展,越来越多的事情可以通过网络来线上完成,比如购物、办理银行业务、预约挂号等,给人们的生活带来了极大便利。通常,当我们在网上使用一项线上服务时,会与提供该线上服务的客服人员进行信息沟通,特别是对服务内容并不熟悉时。
在用户与客服人员进行沟通的场景下,很大概率会出现如下两种情况:第一种是当前客服人员虽是人工客服,但并非所咨询问题对应的专业客服,此时需要进行转接处理,将该用户转移给合适的人工客服,第二种则是当前客服人员是机器人客服,而用户咨询的问题并非机器人客服所能解答的问题,需要为用户提供转接人工客服的处理。
在上述两种情况下,用户在与当前客服人员已经进行了一定程度上的沟通,将用户转移时,应将之前的沟通内容一并转移给新的客服人员。然而,沟通内容可能文字数量繁多,且存在多处重复部分,其一般包括多个语句,若直接交付给新的客服人员,客服人员重新理解沟通内容以确定用户需求会造成时间上的浪费,导致用户等待时间过长,体验较差。
为解决上述问题,避免重复内容对沟通效率带来的不良影响,目前多采用传统的Word2vec相似度计算方法,对沟通内容中的多个语句,利用词向量生成稠密向量代表词的维度,加和平均计算出语句的向量,再利用余弦距离计算出语句之间的相似度,以达到去重的效果。但是,这一方法中加和平均的向量并不能很好地表示语句的意思,且只能计算出语句之间的相似度,却不能从沟通内容中选出具有代表性的语句,来言简意赅地表述清楚用户的真实想法。而且,即使采用如上去重方式来对代表性的语句进行选取,并向新的客服人员转发沟通内容,但在显示沟通内容时,并未对已选出的代表性语句进行强调显示等相应处理,以便该客服人员快速知晓沟通内容的重点。因此,需要提供一种新的语句选取和显示方案,以优化以上处理过程。
发明内容
为此,本发明提供一种语句选取及显示方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种语句选取方法,该方法包括如下步骤:首先,基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点;根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量;选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
可选地,在根据本发明的语句选取方法中,基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型包括:根据各语句与各词之间的对应关系,建立从各语句对应的语句节点到各词对应的词节点的映射;添加源节点和汇节点,并以源节点为起始点,以汇节点为终点,建立源节点至各语句节点的映射,以及各词节点至汇节点的映射。
可选地,在根据本发明的语句选取方法中,预设的容量条件包括:流入任一语句节点的流量,不超过语句节点对应的语句所包括词的数量;流入和流出任一词节点的流量,均不超过1。
可选地,在根据本发明的语句选取方法中,求解流向图模型的最大流包括:通过Ford-Fulkerson算法,求解流向图模型的最大流。
可选地,在根据本发明的语句选取方法中,获取流向图模型中流入各语句节点的归一化流量包括:获取流向图模型中流入各语句节点的流量;对各语句节点,计算流入语句节点的流量与语句节点关联的词节点的数量之商,作为流入语句节点的归一化流量。
可选地,在根据本发明的语句选取方法中,在构建语句集合对应的流向图模型之前,还包括:对语句集合中的各语句分别进行分词处理,以获取语句包括的一个或多个词。
可选地,在根据本发明的语句选取方法中,还包括:对语句集合的代表语句添加相应的标记,并将语句集合下发至对应的客户端,以指示客户端根据代表语句,相应显示语句集合。
根据本发明的又一个方面,提供一种语句显示方法,该方法包括如下步骤:首先,向服务器发送语句获取请求,以指示服务器根据语句获取请求,从对应的语句集合中选取代表语句,对代表语句添加相应的标记,并将语句集合下发至对应的客户端;接收服务器下发的语句集合;若语句的标记指示语句为代表语句,则根据代表语句,相应显示语句集合。
可选地,在根据本发明的语句显示方法中,指示服务器根据语句获取请求,从对应的语句集合中选取代表语句包括:指示服务器根据语句获取请求,获取对应的语句集合,语句集合包括一个或多个语句;对语句集合进行语句选取,以获取语句集合的代表语句。
可选地,在根据本发明的语句显示方法中,对语句集合进行语句选取,以获取语句集合的代表语句包括:基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点;根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量;选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
可选地,在根据本发明的语句显示方法中,根据代表语句,相应显示语句集合包括:根据代表语句,对语句集合包括的语句进行显示属性设置;基于设置好的显示属性,相应显示语句集合。
可选地,在根据本发明的语句显示方法中,根据代表语句,对语句集合包括的语句进行显示属性设置包括:根据代表语句,确定语句集合中代表语句以外的其他语句;对代表语句和其他语句的显示属性进行区别设置。
可选地,在根据本发明的语句显示方法中,显示属性包括是否高亮显示、是否隐藏、字体样式和/或字体颜色。
根据本发明的又一个方面,提供一种语句选取装置,该装置包括构建模块、求解模块和选取模块。其中,构建模块适于基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点;求解模块适于根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量;选取模块适于选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
可选地,在根据本发明的语句选取装置中,构建模块进一步适于:根据各语句与各词之间的对应关系,建立从各语句对应的语句节点到各词对应的词节点的映射;添加源节点和汇节点,并以源节点为起始点,以汇节点为终点,建立源节点至各语句节点的映射,以及各词节点至汇节点的映射。
可选地,在根据本发明的语句选取装置中,预设的容量条件包括:流入任一语句节点的流量,不超过语句节点对应的语句所包括词的数量;流入和流出任一词节点的流量,均不超过1。
可选地,在根据本发明的语句选取装置中,求解模块进一步适于:通过Ford-Fulkerson算法,求解流向图模型的最大流。
可选地,在根据本发明的语句选取装置中,求解模块进一步适于:获取流向图模型中流入各语句节点的流量;对各语句节点,计算流入语句节点的流量与语句节点关联的词节点的数量之商,作为流入语句节点的归一化流量。
可选地,在根据本发明的语句选取装置中,选取模块还适于:对语句集合的代表语句添加相应的标记,并将语句集合下发至对应的客户端,以指示客户端根据代表语句,相应显示语句集合。
可选地,在根据本发明的语句选取装置中,还包括分词模块,分词模块适于:对语句集合中的各语句分别进行分词处理,以获取语句包括的一个或多个词。
根据本发明的又一个方面,提供一种语句显示装置,该装置包括发送模块、接收模块和显示模块。其中,发送模块适于向服务器发送语句获取请求,以指示服务器根据语句获取请求,从对应的语句集合中选取代表语句,对代表语句添加相应的标记,并将语句集合下发至对应的客户端;接收模块适于接收服务器下发的语句集合;显示模块适于当语句的标记指示语句为代表语句时,根据代表语句,相应显示语句集合。
可选地,在根据本发明的语句显示装置中,发送模块进一步适于指示服务器根据语句获取请求,获取对应的语句集合,语句集合包括一个或多个语句;对语句集合进行语句选取,以获取语句集合的代表语句。
可选地,在根据本发明的语句显示装置中,发送模块进一步适于指示服务器基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点;根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量;选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
可选地,在根据本发明的语句显示装置中,显示模块进一步适于根据代表语句,对语句集合包括的语句进行显示属性设置;基于设置好的显示属性,相应显示语句集合。
可选地,在根据本发明的语句显示装置中,显示模块进一步适于根据代表语句,确定语句集合中代表语句以外的其他语句;对代表语句和其他语句的显示属性进行区别设置。
可选地,在根据本发明的语句显示装置中,显示属性包括是否高亮显示、是否隐藏、字体样式和/或字体颜色。
根据本发明的又一个方面,提供一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的语句选取方法和/或语句显示方法的指令。
根据本发明的又一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行根据本发明的语句选取方法和/或语句显示方法。
根据本发明的语句选取方案,将语句集合中的语句映射成语句节点,将语句中包括的词映射成词节点,根据语句和词之间的对应关系,将语句节点和词节点关联起来,生成了语句集合对应的流向图模型,流向图模型实际语句与词的有向图,能够非常准确地代表语句的意图。在构建出流向图模型后,使用最大流动态计算出流入各语句节点的归一化流量,换言之,得到了每个语句对语句集合的贡献率,从而可一次性选出最能代表语句集合的语句,兼顾效率和准确性。进一步地,根据本发明的语句显示方案,与服务器进行交互而获取语句集合,对语句集合中的代表语句和代表语句以外的其他语句区别显示,增强代表语句的展示效果,以强调代表语句指代的内容,便于快速理解语句集合的重点。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的语句处理系统100的示意图;
图2示出了根据本发明的一个实施例的计算设备200的结构框图;
图3示出了根据本发明的一个实施例的语句选取过程的示意图;
图4示出了根据本发明的一个实施例的语句选取方法400的流程图;
图5A示出了根据本发明的一个实施例的语句与词的映射关系图;
图5B示出了根据本发明的一个实施例的流向图模型的示意图;
图6示出了根据本发明的一个实施例的语句显示方法600的流程图;
图7示出了根据本发明的一个实施例的语句选取装置700的示意图;
图8示出了根据本发明的又一个实施例的语句选取装置800的示意图;以及
图9示出了根据本发明的一个实施例的语句显示装置900的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明的一个实施例的语句处理系统100的示意图。应当指出,图1中的语句处理系统100仅是示例性的,在具体的实际情况中,语句处理系统100中可以有不同数量的客户端设备和服务器,客户端设备可以为移动终端,如智能手机、平板电脑等,也可以为计算设备,如PC机等,对此本发明并不限制。
其中,客户端设备因使用方的不同可分为两类,一类是由普通用户使用的用户侧客户端设备,另一类则是通过服务器为用户提供相应服务的服务供应商关联的服务侧客户端设备。例如,服务供应商为一购物应用的服务提供者,如开发人员、运营人员、客服人员等工作人员,则用户侧客户端设备为安装有该购物应用的终端设备,普通用户可通过使用终端设备上的购物应用进行网络购物,服务侧客户端设备为安装有与服务供应商角色对应的管理软件的终端设备,如客服人员这一角色对应的管理软件为用户服务系统,在登录用户服务系统后,客服人员的服务侧客户端设备通过服务器,和普通用户的用户侧客户端设备建立起了连接,进而客服人员可以为普通用户提供商品咨询、售后问题解答等服务。
如图1所示,语句处理系统100包括客户端设备110、客户端设备120、客户端设备130和服务器140。其中,客户端设备110为用户侧客户端设备,客户端设备120和客户端设备130为服务侧客户端设备,客户端设备130中驻留由语句显示装置(图中未示出),服务器140中驻留有语句选取装置(图中未示出)。
根据本发明的一个实施例,客户端设备110和客户端设备120通过服务器140进行数据交互,在这一交互过程中,客户端设备110和客户端设备120向服务器140发送了多条信息,信息可能包括语句(即文本内容)、图片、短语音等。此时,客户端设备130通过语句显示装置,向服务器140发出了语句获取请求。
服务器140接收到语句获取请求后,先将多条信息中包括的一个或多个语句形成一个语句集合,再将该语句集合转移至语句选取装置处理。语句选取装置首先基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点。随后,根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量,再选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。最后,对语句集合的代表语句添加相应的标记,并将语句集合下发至客户端设备130。
客户端设备130利用语句显示装置接收服务器140下发的语句集合,若语句的标记指示语句为代表语句,则根据代表语句,相应显示语句集合。
下面,以一个具体的应用场景来对上述语句处理系统100进行说明。在该场景下,客户端设备110配置为智能手机,客户端设备120和130配置为PC机。客户端设备110中安装有网上购物应用,用户在使用该网上购物应用时,就中意的某商品与该网上购物应用提供的人工客服进行沟通,以咨询该商品的详情。此时,服务器140为该网上购物应用对应的服务端,当前的人工客服通过与服务器140通信连接的客户端设备120中安装的用户服务系统,以服务器140为信息中转站,来接收客户端设备110中网上购物应用所发出的信息。
由于该人工客服并非该商品所属类目对应的专职客服,所掌握的该商品的信息不足以满足用户的要求,此时需要转交给专职客服来对接用户,以便专职客服基于与服务器140通信连接的客户端设备130中安装的用户服务系统,为用户提供更好的服务。然而,在用户与该人工客服沟通的过程中,已经累积了不少信息,为避免内容繁杂、重复过多给后续接任的专职客服带来额外的负担和时间耗费,客户端设备130通过语句显示装置,向服务器140发送语句获取请求。
服务器140接收到语句获取请求后,将累计的信息所包括的语句提取出形成一个语句集合,再通过语句选取装置对该语句集合进行选取处理,以获取能代表该语句集合,也即最能反映用户意图的语句。
在该实施方式中,语句集合中包括语句A、语句B、语句C三个语句,语句A包括词A1、词A2、词A3和词A4,语句B包括词B1、词B2、词B3、词B4和词B5,语句C包括词C1、词C2和词C3。其中,词A1与词B1相同,词A2与词C1相同,词B2与词C2相同,则可得到语句A、B和C总共包括词A1(词B1)、词A2(词C1)、词A3、词A4、词B2(词C2)、词B3、词B4、词B5和词C3这9个词(重复的词仅保留一个)。
基于语句A、语句B和语句C,以及词A1(词B1)、词A2(词C1)、词A3、词A4、词B2(词C2)、词B3、词B4、词B5和词C3,构建语句集合对应的流向图模型。流向图模型包括3个语句节点,分别记为语句节点D1、语句节点D2、语句节点D3,依次表示语句A、语句B和语句C,还包括9个词节点,分别记为词节点E1、词节点E2、词节点E3、词节点E4、词节点E5、词节点E6、词节点E7、词节点E8和词节点E9,依次表示词A1(词B1)、词A2(词C1)、词A3、词A4、词B2(词C2)、词B3、词B4、词B5和词C3。
上述流量图模型还包括一个源节点和一个汇节点,源节点与各语句节点相连,各语句节点与其对应的词节点相连,各词节点与汇节点相连,以此形成了一个源节点为起点,流经语句节点和词节点,最终汇入汇节点的有向图。接下来,根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入语句节点D1、语句节点D2、语句节点D3的归一化流量,并选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
在上述示例中,流入语句节点D1、语句节点D2、语句节点D3的归一化流量分别是0.36、0.72和0.6。而预设流量阈值为0.47,大于0.36而小于0.72和0.6,由此可确定语句节点D2对应的语句B,以及语句节点D3对应的语句C为该语句集合的代表语句。对语句B和语句C添加相应的标记,再将语句集合下发至客户端设备130。
客户端设备130接收到服务器140下发的语句集合后,根据作为代表语句的语句B和语句C,确定语句集合中代表语句以外的其他语句为语句A,将语句B和语句C的显示属性设置为高亮显示,语句A的显示属性设置为非高亮显示,则根据设置好的属性,高亮显示语句B和语句C,以便专职客服快速查看语句B和语句C的内容,从而提供与用户沟通的效率。
根据本发明的一个实施例,上述语句处理系统100中的客户端设备130、服务器140可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的结构框图。
如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个程序222以及数据224。在一些实施方式中,程序222可以布置为在操作系统上由一个或多个处理器204利用数据224执行指令。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备200可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
在一些实施例中,计算设备200可被实现为服务器140,并被配置为执行根据本发明的语句选取方法400,计算设备还可被实现为客户端设备130,并被配置为执行根据本发明的语句显示方法600。其中,计算设备200的程序222中包含执行根据本发明的语句选取方法400和/或语句显示方法600多条程序指令,而数据224还可以存储语句处理系统100的配置信息等。
图3示出了根据本发明的一个实施例的语句选取过程的示意图。如图3所示,对语句集合中的各语句,先分别进行分词处理,以获取语句包括的一个或多个词,再基于各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点。再根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量。最后,将得到的各归一化流量和预设流量阈值进行比较,选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
图4示出了根据本发明的一个实施例的语句选取方法400的流程图。如图4所示,方法400始于步骤S410。在步骤S410中,基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点。
根据本发明的一个实施例,在执行步骤S410之前,即在构建语句集合对应的流向图模型之前,需要先对语句集合中的各语句分别进行分词处理,以获取语句包括的一个或多个词。在该实施方式中,语句集合包括3个语句,分别是“我喜欢这个商品。”、“这个商品我好喜欢。”以及“这个商品解决了我的问题。”。
对上述3个语句分别进行分词处理,得到语句“我喜欢这个商品。”包括5个词,依次是“我”、“喜欢”、“这个”、“商品”和“。”,语句“这个商品我好喜欢。”包括6个词,依次是“这个”、“商品”、“我”、“好”、“喜欢”和“。”,语句“这个商品解决了我的问题。”包括8个词,依次是“这个”、“商品”、“解决”、“了”、“我”、“的”、“问题”和“。”。由此可知,语句集合中的3个语句总共包括10个词(相同的词记为同一个),分别是“这个”、“我”、“解决”、“。”、“的”、“了”、“问题”、“喜欢”、“好”和“商品”。
需要说明的是,分词处理所使用的工具或算法,在本发明中并不进行限制,只要能满足准确分词的条件即可,换言之,所有这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
在获取到各语句所包括的词之后,基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型。根据本发明的一个实施例,可通过如下方式来构建语句集合对应的流向图模型。首先,根据各语句与各词之间的对应关系,建立从各语句对应的语句节点到各词对应的词节点的映射。
在该实施方式中,以语句节点N1、N2和N3依次表示语句“我喜欢这个商品。”、“这个商品我好喜欢。”和“这个商品解决了我的问题。”,以词节点N4、N5、N6、N7、N8、N9、N10、N11、N12和N13依次表示词“这个”、“我”、“解决”、“。”、“的”、“了”、“问题”、“喜欢”、“好”和“商品”。那么。根据各语句与各词之间的对应关系,可确定,语句节点N1对应于词节点N4、N5、N7、N11和N13,语句节点N2对应于词节点N4、N5、N7、N11、N12和N13,语句节点N3对应于词节点N4、N5、N6、N7、N8、N9、N10和N13。基于上述对应关系,建立各语句节点与其对应的词节点的映射。
图5A示出了根据本发明的一个实施例的语句与词的映射关系图。如图5A所示,语句节点N1与词节点N4、N5、N7、N11和N13之间存在映射关系,语句节点N2与词节点N4、N5、N7、N11、N12和N13之间存在映射关系,语句节点N3与词节点N4、N5、N6、N7、N8、N9、N10和N13之间存在映射关系。
在建立好从各语句对应的语句节点到各词对应的词节点的映射后,添加源节点和汇节点,并以源节点为起始点,以汇节点为终点,建立源节点至各语句节点的映射,以及各词节点至汇节点的映射。根据本发明的一个实施例,以N0表示源节点,N14表示汇节点,建立从源节点N0至语句节点N1、N2和N3的映射,以及从词节点N4、N5、N6、N7、N8、N9、N10、N11、N12和N13至汇节点N14的映射。在上述映射均建立完成后,则构建出了语句集合对应的流向图模型。
图5B示出了根据本发明的一个实施例的流向图模型的示意图。如图5B所示,在图5A的基础上,新增了源节点N0和汇节点N14,进而形成了以源节点N0为起始点,经过语句节点N1~N3,再根据各语句节点与对应词节点之间的映射关系,相应流经词节点N4~N13,最终由词节点N4~N13汇聚至汇节点N14,形成了有向无环图,即流向图模型。
在该流向图模型中,可以将从源节点至语句节点、从语句节点至词节点以及从词节点至汇节点之间的映射关系,理解为流向图模型中的边,那么对于各条边,流经边的流量存在容量上的限制,即边的流量不能超过容量上限。因此,在求解流量图模型时,需要基于预设的容量条件来进行最大流计算。进而,在步骤S420中,根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量。
根据本发明的一个实施例,预设的容量条件包括流入任一语句节点的流量,不超过语句节点对应的语句所包括词的数量,以及流入和流出任一词节点的流量,均不超过1。在该实施方式中,语句节点N1对应的语句所包括的词的数量为5,语句节点N2对应的语句所包括的词的数量为6,语句节点N3对应的语句所包括的词的数量为8,则流入语句节点N1的流量不超过5,流入语句节点N2的流量不超过6,流入语句节点N3的流量不超过8,流入和流出词节点N3~N4的流量均不超过1。此处应注意的是,流量的值为非负整数。
上述容量条件表明,针对源节点,其可以流入任何一个语句节点的流量应该不超过该语句节点所对应的词节点的个数。针对汇节点,从任何一个词节点流入汇节点的流量应该不超过1,也即认为每个词最多被选择一次。对于流入任何一个词节点的流量,同样约定不应该超过1,表明每个词要么被选择,要么不被选择。
根据本发明的一个实施例,通过Ford-Fulkerson算法,求解流向图模型的最大流。在介绍Ford-Fulkerson算法之前,先对流网络进行一个简要说明。
流网络(Flow Networks)指的是一个有向图G=(V,E),V为顶点集合,E为有向边的集合,其中,每条边(u,v)∈E(u和v为顶点)均有一非负容量c(u,v)≥0。如果
Figure BDA0001904272890000141
则可以规定c(u,v)=0。流网络中有两个特殊的顶点:源点s(source)和汇点t(sink)。为方便起见,假定每个顶点均处于从源点到汇点的某条路径上,就是说,对每个顶点v∈V,存在一条路径s-->v-->t。因此,图G为连通图,且|E|≥|V|-1。
设G=(V,E)是一个流网络,其容量函数为c。设s为网络的源点,t为汇点。G的流的一个实值函数f:V×V→R,且满足下列三个性质:
·容量限制(Capacity Constraint):对所有顶点对u,v∈V,要求满足f(u,v)≤c(u,v);
·反对称性(Skew Symmetry):对所有顶点对u,v∈V,要求满足f(u,v)=-f(v,u);
·流守恒性(Flow Conservation):对所有顶点对u,v∈V-{s,t},要求满足∑v∈Vf(u,v)=0。
f(u,v)称为从顶点u到顶点v的流,流的值定义为:|f|=∑v∈Vf(s,v),即从源点s出发的总流。
最大流问题(Maximum-flow problem)中,给出源点s和汇点t的流网络G,希望找出从s到t的最大值流。
满足流网络的性质的实际上定义了问题的限制:
·经过边的流不能超过边的容量;
·除了源点s和汇点t,对于其他所有顶点,流入量与流出量要相等。
解决最大流问题的Ford-Fulkerson算法,也称作“扩充路径方法”,该方法是大量算法的基础,有多种实现方式。
Ford-Fulkerson算法是一种迭代算法,首先对图中所有顶点对的流大小清零,此时的网络流大小也为0。在每次迭代中,通过寻找一条“增广路径”(augmenting path)来增加流的值。增广路径可以看作是源点s到汇点t的一条路径,并且沿着这条路径可以增加更多的流。迭代直至无法再找到增广路径位置,此时必然从源点到汇点的所有路径中都至少有一条边的满边(即边的流的大小等于边的容量大小)。
这里提及一个新的概念,即“增广路径”。下面将进一步引入“残留网络”(residualnetwork)来讨论增广路径的寻找算法,并引入“最大流最小割”(Max-Flow Min Cut)定理来证明Ford-Fulkerson算法的正确性。
给定一个流网络G和一个流,流的残留网Gf拥有与原网相同的顶点。原流网络中每条边将对应残留网中一条或者两条边,对于原流网络中的任意边(u,v),流量为f(u,v),容量为c(u,v):
·如果f(u,v)>0,则在残留网中包含一条容量为f(u,v)的边(v,u);
·如果f(u,v)<c(u,v),则在残留网中包含一条容量为c(u,v)-f(u,v)的边(u,v)。
残留网允许使用任何广义图搜索算法来找一条增广路径,因为残留网中从源点s到汇点t的路径都直接对应着一条增广路径。
流网络G=(V,E)的割(S,T)将V分为S和T=V-S两个部分,使得源点s∈S,汇点t∈T。如果f是一个流,则穿过割(S,T)的流用f(S,T)=∑u∈Sv∈Tf(u,v)表示,割(S,T)的容量用c(S,T)=∑u∈Sv∈Tc(u,v)表示。
其中,割的流可能是正数也可能是负数,而容量一定是非负的。在流网络中,每个割的流都是相同的,其值等于流网络的流的值,并且每个割的流都不大于割的容量。由于流网络中所有割的流都相等并且等于网络的流,所有网络的任何流的值都不大于任何一个割的容量。根据上面对流网络中割的概念的介绍,下面引入最大流最小割定理,并利用该定理说明Ford-Fulkerson算法的正确性。
最大流最小割定理:若一个网中所有流中的最大值等于所有割中的最小容量,则以下三个条件等价:
·f是流网络G的一个最大流;
·残留网Gf不包含增广路径;
·G的某个割(S,T),满足f(S,T)=c(S,T)。
(1)假设f是G的最大流,但是Gf中包含增广路径p。显然此时沿着增广路径可以继续增大网络的流,则f不是G的最大流,与条件矛盾;
(2)假设Gf中不包含增广路径,即Gf中不包含从s到t的路径。
定义:S={v∈V:Gf中包含s到v的路径},
令T=V–S,由于Gf中不存在从s到t的路径,则
Figure BDA0001904272890000161
所以得到G的一个割(S,T)。对每对顶点u∈S,v∈T,必须满足f(u,v)=c(u,v),否则边(u,v)就会存在于Gf的边集合中,那么v就应当属于S(而事实上是v∈T)。所以,f(S,T)=c(S,T);
(3)已经证明,网络的任何流的值都不大于任何一个割的容量,如果G的某个割(S,T),满足f(S,T)=c(S,T),则说明割(S,T)的流达到了网络流的上确界,其必然是最大流。
Ford-Fulkerson算法的迭代终止条件是残留网中不包含增广路径,根据上面的等价条件,此时得到的流就是网络的最大流。增广路径事实上是残留网中从源点s到汇点t的路径,可以利用图算法中的任意一种被算法来获取这条路径,例如BFS(Breadth-FirstSearch,广度优先搜索),DFS(Depth-First Search,深度优先搜索)等。其中基于BFS的算法通常称为Edmonds-Karp算法,该算法是“最短”扩充路径,这里的“最短”由路径上的边的数量来度量,而不是流量或者容量。
根据本发明的一个实施例,在利用Ford-Fulkerson算法求解流向图模型的最大流时,源节点N0可视为源点s,汇节点N14可视为汇点t,语句节点N1~N3和词节点N4~N13可视为其他的顶点,基于以上容量条件来进行最大流的计算,并可得出在最大流的情况下,流向图模型中流入各语句节点的流量,以便进行归一化流量的计算。
在该实施方式中,在获取到流向图模型中流入各语句节点的流量后,对各语句节点,计算流入语句节点的流量与语句节点关联的词节点的数量之商,作为流入语句节点的归一化流量,归一化流量代表了为最大化表示语句集合的意思所要选择该语句节点的百分比。
由于流入语句节点N1的流量为5,流入语句节点N2的流量为1,流入语句节点N3的流量为4,而与语句节点N1关联的词节点的数量为5,与语句节点N2关联的词节点的数量为6,与语句节点N3关联的词节点的数量为8,得出流入语句节点N1的归一化流量为5/5,流入语句节点N2的归一化流量为1/6,流入语句节点N3的归一化流量为4/8。
最后,执行步骤S430,选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。根据本发明的一个实施例,预设流量阈值为0.45,则归一化流量大于0.45的语句节点为N1和N3,对应的语句分别是“我喜欢这个商品。”和“这个商品解决了我的问题。”,这两个语句即为语句集合的代表语句。比较语句“我喜欢这个商品。”和“这个商品我好喜欢。”,两句话大部分的词是重合的,只差了一个“好”字。而流向图模型会急剧地压缩其中一句而选择另外一句,这也符合对语句集合所代表的句簇去重的初衷。
在选取出代表语句后,根据本发明的一个实施例,对语句集合的代表语句添加相应的标记,并将语句集合下发至对应的客户端,以指示客户端根据代表语句,相应显示语句集合。在该实施方式中,对代表语句“我喜欢这个商品。”和“这个商品解决了我的问题。”添加相应的标记,之后将语句集合下发至客户端设备130中对应的客户端(通常为客户端设备130中驻留的语句选取装置对应的软件或程序),以指示客户端根据代表语句,相应显示语句集合。
图6示出了根据本发明的一个实施例的语句显示方法600的流程图。如图6所示,方法600始于步骤S610。在步骤S610中,向服务器发送语句获取请求,以指示服务器根据语句获取请求,从对应的语句集合中选取代表语句,对代表语句添加相应的标记,并将语句集合下发至对应的客户端。
根据本发明的一个实施例,可通过如下方式指示服务器根据语句获取请求,从对应的语句集合中选取代表语句。首先,指示服务器根据语句获取请求,获取对应的语句集合,语句集合包括一个或多个语句,再对语句集合进行语句选取,以获取语句集合的代表语句。
在对语句集合进行语句选取时,先基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点,然后根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量,再选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
在该实施方式中,客户端设备130向服务器140发送语句获取请求,以指示服务器140根据语句获取请求,从对应的语句集合中选取代表语句,对代表语句添加相应的标记,并将语句集合下发至客户端设备130。
语句集合包括3个语句,分别是“我喜欢这个商品。”、“这个商品我好喜欢。”以及“这个商品解决了我的问题。”,服务器140中该语句集合中选出的代表语句为“我喜欢这个商品。”和“这个商品解决了我的问题。”。在对代表语句添加相应的标记后,服务器140将包含有添加了标记的代表语句的语句集合下发至客户端设备130。关于服务器140进行语句选取的具体步骤,已在方法400的描述中予以说明,此处不再赘述。
随后,进入步骤S620,接收服务器下发的语句集合。根据本发明的一个实施例,接收到服务器140下发的语句集合,该语句集合包括3个语句,其中有2个语句为代表语句。
最后,执行步骤S630,若语句的标记指示语句为代表语句,则根据代表语句,相应显示语句集合。根据本发明的一个实施例,可通过如下方式根据代表语句,相应显示语句集合。首先,根据代表语句,对语句集合包括的语句进行显示属性设置,具体地,根据代表语句,确定语句集合中代表语句以外的其他语句,对代表语句和其他语句的显示属性进行区别设置。其中,显示属性包括是否高亮显示、是否隐藏、字体样式和/或字体颜色。然后,基于设置好的显示属性,相应显示语句集合。
在该实施方式中,根据代表语句,确定语句集合中代表语句以外地其他语句为“这个商品我好喜欢。”。对代表语句“我喜欢这个商品。”、“这个商品解决了我的问题。”和其他语句“这个商品我好喜欢。”的显示属性,进行区别设置,即可将语句“我喜欢这个商品。”和“这个商品解决了我的问题。”的显示属性设置为高亮显示,语句“这个商品我好喜欢。”的显示属性设置为非高亮显示。根据设置好的属性,高亮显示语句“我喜欢这个商品。”和“这个商品解决了我的问题。”,常规显示语句“这个商品我好喜欢。”。
图7示出了根据本发明的一个实施例的语句选取装置700的示意图。如图7所示,语句选取装置700包括构建模块710,求解模块720和选取模块730。
构建模块710适于基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点。
根据本发明的一个实施例,构建模块710进一步适于根据各语句与各词之间的对应关系,建立从各语句对应的语句节点到各词对应的词节点的映射,添加源节点和汇节点,并以源节点为起始点,以汇节点为终点,建立源节点至各语句节点的映射,以及各词节点至汇节点的映射。
在该实施方式中,语句集合包括3个语句,分别是“我喜欢这个商品。”、“这个商品我好喜欢。”以及“这个商品解决了我的问题。”。语句“我喜欢这个商品。”包括5个词,依次是“我”、“喜欢”、“这个”、“商品”和“。”,语句“这个商品我好喜欢。”包括6个词,依次是“这个”、“商品”、“我”、“好”、“喜欢”和“。”,语句“这个商品解决了我的问题。”包括8个词,依次是“这个”、“商品”、“解决”、“了”、“我”、“的”、“问题”和“。”。由此可知,语句集合中的3个语句总共包括10个词(相同的词记为同一个),分别是“这个”、“我”、“解决”、“。”、“的”、“了”、“问题”、“喜欢”、“好”和“商品”。
以语句节点N1、N2和N3依次表示语句“我喜欢这个商品。”、“这个商品我好喜欢。”和“这个商品解决了我的问题。”,以词节点N4、N5、N6、N7、N8、N9、N10、N11、N12和N13依次表示词“这个”、“我”、“解决”、“。”、“的”、“了”、“问题”、“喜欢”、“好”和“商品”。那么。根据各语句与各词之间的对应关系,可确定,语句节点N1对应于词节点N4、N5、N7、N11和N13,语句节点N2对应于词节点N4、N5、N7、N11、N12和N13,语句节点N3对应于词节点N4、N5、N6、N7、N8、N9、N10和N13。
构建模块710基于上述对应关系,建立各语句节点与其对应的词节点的映射,并以N0表示源节点,N14表示汇节点,建立从源节点N0至语句节点N1、N2和N3的映射,以及从词节点N4、N5、N6、N7、N8、N9、N10、N11、N12和N13至汇节点N14的映射。在上述映射均建立完成后,则构建出了语句集合对应的流向图模型。
求解模块720适于根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量。根据本发明的一个实施例,预设的容量条件包括:流入任一语句节点的流量,不超过语句节点对应的语句所包括词的数量,流入和流出任一词节点的流量,均不超过1。
在该实施方式中,语句节点N1对应的语句所包括的词的数量为5,语句节点N2对应的语句所包括的词的数量为6,语句节点N3对应的语句所包括的词的数量为8,则流入语句节点N1的流量不超过5,流入语句节点N2的流量不超过6,流入语句节点N3的流量不超过8,流入和流出词节点N3~N4的流量均不超过1。
求解模块720进一步适于通过Ford-Fulkerson算法,求解流向图模型的最大流。在利用Ford-Fulkerson算法求解流向图模型的最大流时,源节点N0可视为源点s,汇节点N14可视为汇点t,语句节点N1~N3和词节点N4~N13可视为其他的顶点,求解模块720基于以上容量条件来进行最大流的计算,并可得出在最大流的情况下,流向图模型中流入各语句节点的流量,以便进行归一化流量的计算。
根据本发明的一个实施例,求解模块720进一步适于获取流向图模型中流入各语句节点的流量,对各语句节点,计算流入语句节点的流量与语句节点关联的词节点的数量之商,作为流入语句节点的归一化流量。
在该实施方式中,由于流入语句节点N1的流量为5,流入语句节点N2的流量为1,流入语句节点N3的流量为4,而与语句节点N1关联的词节点的数量为5,与语句节点N2关联的词节点的数量为6,与语句节点N3关联的词节点的数量为8,求解模块720得出流入语句节点N1的归一化流量为5/5,流入语句节点N2的归一化流量为1/6,流入语句节点N3的归一化流量为4/8。
选取模块730适于选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
根据本发明的一个实施例,预设流量阈值为0.45,则归一化流量大于0.45的语句节点为N1和N3,对应的语句分别是“我喜欢这个商品。”和“这个商品解决了我的问题。”,选取模块730选取这两个语句为语句集合的代表语句。
选取模块730还适于对语句集合的代表语句添加相应的标记,并将语句集合下发至对应的客户端,以指示客户端根据代表语句,相应显示语句集合。
根据本发明的一个实施例,选取模块730对代表语句“我喜欢这个商品。”和“这个商品解决了我的问题。”添加相应的标记,之后将语句集合下发至客户端设备130中对应的客户端(通常为客户端设备130中驻留的语句选取装置对应的软件或程序),以指示客户端根据代表语句,相应显示语句集合。
图8示出了根据本发明的又一个实施例的语句选取装置800的示意图。如图8所示,语句选取装置800的构建模块810,求解模块820和选取模块830,分别与图7中装置700的构建模块710,求解模块720和选取模块730一一对应,是一致的,并新增了分词模块840,适于对语句集合中的各语句分别进行分词处理,以获取语句包括的一个或多个词。
在该实施方式中,语句集合包括3个语句,分别是“我喜欢这个商品。”、“这个商品我好喜欢。”以及“这个商品解决了我的问题。”。分词模块840对上述3个语句分别进行分词处理,得到语句“我喜欢这个商品。”包括5个词,依次是“我”、“喜欢”、“这个”、“商品”和“。”,语句“这个商品我好喜欢。”包括6个词,依次是“这个”、“商品”、“我”、“好”、“喜欢”和“。”,语句“这个商品解决了我的问题。”包括8个词,依次是“这个”、“商品”、“解决”、“了”、“我”、“的”、“问题”和“。”。由此可知,语句集合中的3个语句总共包括10个词(相同的词记为同一个),分别是“这个”、“我”、“解决”、“。”、“的”、“了”、“问题”、“喜欢”、“好”和“商品”。
关于语句选取的具体步骤以及实施例,在基于图1、3~5B的描述中已经详细公开,此处不再赘述。
图9示出了根据本发明的一个实施例的语句显示装置900的示意图。如图9所示,语句显示装置900包括发送模块910、接收模块920和显示模块930。
发送模块910适于向服务器发送语句获取请求,以指示服务器根据语句获取请求,从对应的语句集合中选取代表语句,对代表语句添加相应的标记,并将语句集合下发至对应的客户端。
根据本发明的一个实施例,发送模块910进一步适于指示服务器根据语句获取请求,获取对应的语句集合,语句集合包括一个或多个语句;对语句集合进行语句选取,以获取语句集合的代表语句。
发送模块910进一步适于指示服务器基于语句集合中的各语句,以及语句包括的一个或多个词,构建语句集合对应的流向图模型,流向图模型包括多个与语句一一对应的语句节点,以及多个与词一一对应的词节点;根据预设的容量条件,求解流向图模型的最大流,以获取流向图模型中流入各语句节点的归一化流量;选取归一化流量大于预设流量阈值的语句节点对应的语句,作为语句集合的代表语句。
在该实施方式中,发送模块910向服务器140发送语句获取请求,以指示服务器140根据语句获取请求,从对应的语句集合中选取代表语句,对代表语句添加相应的标记,并将语句集合下发至语句显示装置900。
语句集合包括3个语句,分别是“我喜欢这个商品。”、“这个商品我好喜欢。”以及“这个商品解决了我的问题。”,服务器140中该语句集合中选出的代表语句为“我喜欢这个商品。”和“这个商品解决了我的问题。”。在对代表语句添加相应的标记后,服务器140将包含有添加了标记的代表语句的语句集合下发至语句显示装置900。关于服务器140进行语句选取的具体步骤,已在方法400的描述中予以说明,此处不再赘述。
接收模块920适于接收服务器下发的语句集合。根据本发明的一个实施例,接收模块920接收到服务器140下发的语句集合,该语句集合包括3个语句,其中有2个语句为代表语句。
显示模块930适于当语句的标记指示语句为代表语句时,根据代表语句,相应显示语句集合。
根据本发明的一个实施例,显示模块930进一步适于根据代表语句,对语句集合包括的语句进行显示属性设置;基于设置好的显示属性,相应显示语句集合。显示模块930进一步适于根据代表语句,确定语句集合中代表语句以外的其他语句;对代表语句和其他语句的显示属性进行区别设置。其中,显示属性包括是否高亮显示、是否隐藏、字体样式和/或字体颜色。
在该实施方式中,显示模块930根据代表语句,确定语句集合中代表语句以外地其他语句为“这个商品我好喜欢。”。对代表语句“我喜欢这个商品。”、“这个商品解决了我的问题。”和其他语句“这个商品我好喜欢。”的显示属性,进行区别设置,即可将语句“我喜欢这个商品。”和“这个商品解决了我的问题。”的显示属性设置为高亮显示,语句“这个商品我好喜欢。”的显示属性设置为非高亮显示。根据设置好的属性,高亮显示语句“我喜欢这个商品。”和“这个商品解决了我的问题。”,常规显示语句“这个商品我好喜欢。”。
关于语句显示的具体步骤以及实施例,在基于图1、6的描述中已经详细公开,此处不再赘述。
现有的语句选取方法,通常利用词向量生成的稠密向量加和平均以计算出语句的向量,但是加和平均的向量并不能很好地表示语句的意思,且只能计算出语句之间的相似度,却不能从沟通内容中选出具有代表性的语句,来言简意赅地表述清楚用户的真实想法。根据本发明实施例的语句选取方案,将语句集合中的语句映射成语句节点,将语句中包括的词映射成词节点,根据语句和词之间的对应关系,将语句节点和词节点关联起来,生成了语句集合对应的流向图模型,流向图模型实际语句与词的有向图,能够非常准确地代表语句的意图。在构建出流向图模型后,使用最大流动态计算出流入各语句节点的归一化流量,换言之,得到了每个语句对语句集合的贡献率,从而可一次性选出最能代表语句集合的语句,兼顾效率和准确性。
进一步地,根据本发明实施例的语句显示方案,与服务器进行交互而获取语句集合,对语句集合中的代表语句和代表语句以外的其他语句区别显示,增强代表语句的展示效果,以强调代表语句指代的内容,便于快速理解语句集合的重点。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的语句选取方法和/或语句显示方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (17)

1.一种语句选取方法,包括:
基于语句集合中的各语句,以及所述语句包括的一个或多个词,构建所述语句集合对应的流向图模型,所述流向图模型包括多个与所述语句一一对应的语句节点,以及多个与所述词一一对应的词节点;
根据预设的容量条件,求解所述流向图模型的最大流,以获取所述流向图模型中流入各语句节点的归一化流量;
选取归一化流量大于预设流量阈值的语句节点对应的语句,作为所述语句集合的代表语句。
2.如权利要求1所述的方法,其中,所述基于所述语句集合中的各语句,以及所述语句包括的一个或多个词,构建所述语句集合对应的流向图模型包括:
根据各语句与各词之间的对应关系,建立从各语句对应的语句节点到各词对应的词节点的映射;
添加源节点和汇节点,并以所述源节点为起始点,以所述汇节点为终点,建立所述源节点至各语句节点的映射,以及各词节点至所述汇节点的映射。
3.如权利要求1所述的方法,其中,所述预设的容量条件包括:
流入任一语句节点的流量,不超过所述语句节点对应的语句所包括词的数量;
流入和流出任一词节点的流量,均不超过1。
4.如权利要求1所述的方法,其中,所述求解所述流向图模型的最大流包括:
通过Ford-Fulkerson算法,求解所述流向图模型的最大流。
5.如权利要求1所述的方法,其中,所述获取所述流向图模型中流入各语句节点的归一化流量包括:
获取所述流向图模型中流入各语句节点的流量;
对各语句节点,计算流入所述语句节点的流量与所述语句节点关联的词节点的数量之商,作为流入所述语句节点的归一化流量。
6.如权利要求1所述的方法,其中,在构建所述语句集合对应的流向图模型之前,还包括:
对所述语句集合中的各语句分别进行分词处理,以获取所述语句包括的一个或多个词。
7.如权利要求1所述的方法,其中,还包括:
对所述语句集合的代表语句添加相应的标记,并将所述语句集合下发至对应的客户端,以指示所述客户端根据所述代表语句,相应显示所述语句集合。
8.一种语句显示方法,包括:
向服务器发送语句获取请求,以指示所述服务器根据所述语句获取请求,从对应的语句集合中选取代表语句,对所述代表语句添加相应的标记,并将所述语句集合下发至对应的客户端;
接收所述服务器下发的所述语句集合;
若所述语句的标记指示所述语句为代表语句,则根据所述代表语句,相应显示所述语句集合。
9.如权利要求8所述的方法,其中,所述指示所述服务器根据所述语句获取请求,从对应的语句集合中选取代表语句包括:
指示所述服务器根据所述语句获取请求,获取对应的语句集合,所述语句集合包括一个或多个语句;
对所述语句集合进行语句选取,以获取所述语句集合的代表语句。
10.如权利要求9所述的方法,其中,所述对所述语句集合进行语句选取,以获取所述语句集合的代表语句包括:
基于语句集合中的各语句,以及所述语句包括的一个或多个词,构建所述语句集合对应的流向图模型,所述流向图模型包括多个与所述语句一一对应的语句节点,以及多个与所述词一一对应的词节点;
根据预设的容量条件,求解所述流向图模型的最大流,以获取所述流向图模型中流入各语句节点的归一化流量;
选取归一化流量大于预设流量阈值的语句节点对应的语句,作为所述语句集合的代表语句。
11.如权利要求8所述的方法,其中,所述根据所述代表语句,相应显示所述语句集合包括:
根据所述代表语句,对所述语句集合包括的语句进行显示属性设置;
基于设置好的显示属性,相应显示所述语句集合。
12.如权利要求11所述的方法,其中,所述根据所述代表语句,对所述语句集合包括的语句进行显示属性设置包括:
根据所述代表语句,确定所述语句集合中代表语句以外的其他语句;
对所述代表语句和所述其他语句的显示属性进行区别设置。
13.如权利要求11或12所述的方法,其中,所述显示属性包括是否高亮显示、是否隐藏、字体样式和/或字体颜色。
14.一种语句选取装置,包括:
构建模块,适于基于语句集合中的各语句,以及所述语句包括的一个或多个词,构建所述语句集合对应的流向图模型,所述流向图模型包括多个与所述语句一一对应的语句节点,以及多个与所述词一一对应的词节点;
求解模块,适于根据预设的容量条件,求解所述流向图模型的最大流,以获取所述流向图模型中流入各语句节点的归一化流量;
选取模块,适于选取归一化流量大于预设流量阈值的语句节点对应的语句,作为所述语句集合的代表语句。
15.一种语句显示装置,包括:
发送模块,适于向服务器发送语句获取请求,以指示所述服务器根据所述语句获取请求,从对应的语句集合中选取代表语句,对所述代表语句添加相应的标记,并将所述语句集合下发至对应的客户端;
接收模块,适于接收所述服务器下发的所述语句集合;
显示模块,适于当所述语句的标记指示所述语句为代表语句时,根据所述代表语句,相应显示所述语句集合。
16.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-13所述的方法中的任一方法的指令。
17.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-13所述的方法中的任一方法。
CN201811525230.4A 2018-12-13 2018-12-13 语句选取方法、语句显示方法、相关装置及计算设备 Active CN111324723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811525230.4A CN111324723B (zh) 2018-12-13 2018-12-13 语句选取方法、语句显示方法、相关装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811525230.4A CN111324723B (zh) 2018-12-13 2018-12-13 语句选取方法、语句显示方法、相关装置及计算设备

Publications (2)

Publication Number Publication Date
CN111324723A true CN111324723A (zh) 2020-06-23
CN111324723B CN111324723B (zh) 2023-04-25

Family

ID=71170115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811525230.4A Active CN111324723B (zh) 2018-12-13 2018-12-13 语句选取方法、语句显示方法、相关装置及计算设备

Country Status (1)

Country Link
CN (1) CN111324723B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029002A (en) * 1995-10-31 2000-02-22 Peritus Software Services, Inc. Method and apparatus for analyzing computer code using weakest precondition
CN103324686A (zh) * 2013-06-03 2013-09-25 中国科学院自动化研究所 基于文本流网络的实时个性化视频推荐方法
CN106095270A (zh) * 2016-06-06 2016-11-09 北京京东尚科信息技术有限公司 展示重点语句及确定标记范围的方法和终端装置及服务器
CN106372208A (zh) * 2016-09-05 2017-02-01 东南大学 一种基于语句相似度的话题观点聚类方法
CN106856447A (zh) * 2015-12-09 2017-06-16 北京三星通信技术研究有限公司 交互内容信息的处理方法、及相关装置、和终端设备
US20170193098A1 (en) * 2015-12-31 2017-07-06 Dhristi Inc. System and method for topic modeling using unstructured manufacturing data
CN107408054A (zh) * 2015-03-05 2017-11-28 I·乔索帕特 用于通用计算图形处理单元中的语言嵌入式编程的流控制
CN108038107A (zh) * 2017-12-22 2018-05-15 东软集团股份有限公司 基于卷积神经网络的语句情感分类方法、装置及其设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029002A (en) * 1995-10-31 2000-02-22 Peritus Software Services, Inc. Method and apparatus for analyzing computer code using weakest precondition
CN103324686A (zh) * 2013-06-03 2013-09-25 中国科学院自动化研究所 基于文本流网络的实时个性化视频推荐方法
CN107408054A (zh) * 2015-03-05 2017-11-28 I·乔索帕特 用于通用计算图形处理单元中的语言嵌入式编程的流控制
CN106856447A (zh) * 2015-12-09 2017-06-16 北京三星通信技术研究有限公司 交互内容信息的处理方法、及相关装置、和终端设备
US20170193098A1 (en) * 2015-12-31 2017-07-06 Dhristi Inc. System and method for topic modeling using unstructured manufacturing data
CN106095270A (zh) * 2016-06-06 2016-11-09 北京京东尚科信息技术有限公司 展示重点语句及确定标记范围的方法和终端装置及服务器
CN106372208A (zh) * 2016-09-05 2017-02-01 东南大学 一种基于语句相似度的话题观点聚类方法
CN108038107A (zh) * 2017-12-22 2018-05-15 东软集团股份有限公司 基于卷积神经网络的语句情感分类方法、装置及其设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SOUJANYA PORIA: "Sentiment Data Flow Analysis by Means of Dynamic Linguistic Patterns" *
董海凤;: "一个完整的基于语义网的信息搜索模型" *

Also Published As

Publication number Publication date
CN111324723B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN108415978B (zh) 用户标签存储方法、用户画像计算方法及计算设备
WO2020125445A1 (zh) 分类模型训练方法、分类方法、设备及介质
JP6594988B2 (ja) 住所テキストを処理する方法及び機器
CN105468742B (zh) 恶意订单识别方法及装置
CN107436875B (zh) 文本分类方法及装置
US20190377794A1 (en) Method and apparatus for determining user intent
WO2017215370A1 (zh) 构建决策模型的方法、装置、计算机设备及存储设备
CN108628830B (zh) 一种语义识别的方法和装置
US10311288B1 (en) Determining identity of a person in a digital image
WO2020038100A1 (zh) 一种特征关系推荐方法及装置、一种计算设备及存储介质
US20190056235A1 (en) Path querying method and device, an apparatus and non-volatile computer storage medium
WO2023138188A1 (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN109741086A (zh) 一种计算模型的生成方法及设备
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN112506359B (zh) 输入法中候选长句的提供方法、装置及电子设备
WO2024098623A1 (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
CN110879837A (zh) 一种信息处理方法及装置
CN110633717A (zh) 一种目标检测模型的训练方法和装置
CN108536680B (zh) 一种房产信息的获取方法和装置
CN110335070B (zh) 一种基于wifi的用户群扩展的方法、装置和电子设备
WO2021213069A1 (zh) 账号的识别方法、装置、电子设备及计算机可读介质
CN110807097A (zh) 分析数据的方法和装置
CN114281984A (zh) 一种风险检测方法、装置、设备及计算机可读存储介质
CN111324723B (zh) 语句选取方法、语句显示方法、相关装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant