CN101834809B - 一种互联网即时消息通讯系统 - Google Patents

一种互联网即时消息通讯系统 Download PDF

Info

Publication number
CN101834809B
CN101834809B CN2010101754313A CN201010175431A CN101834809B CN 101834809 B CN101834809 B CN 101834809B CN 2010101754313 A CN2010101754313 A CN 2010101754313A CN 201010175431 A CN201010175431 A CN 201010175431A CN 101834809 B CN101834809 B CN 101834809B
Authority
CN
China
Prior art keywords
message
module
user
word
instant message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101754313A
Other languages
English (en)
Other versions
CN101834809A (zh
Inventor
王君泽
王芙蓉
王舟
胡广
温杰
禹航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2010101754313A priority Critical patent/CN101834809B/zh
Publication of CN101834809A publication Critical patent/CN101834809A/zh
Application granted granted Critical
Publication of CN101834809B publication Critical patent/CN101834809B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种互联网即时消息通讯系统,其目的就是通过对普通IM聊天工具进行一个新式的自动消息派发的功能的置入,使IM聊天工具具有智能化功能,为了在IM聊天工具中搭建一个自动消息派发器,本发明采用了统计自然语言技术的信息检索,机器翻译等处理方法,在互联网IM系统的单一窗口而多消息接收对象的环境下,通过构建语义关联模型,计算新消息与各个不同对话的已存在消息的语义相关性,选择最相关的对话,从而实现消息到对应的接收者的自动派发。

Description

一种互联网即时消息通讯系统
技术领域
本发明属于计算机科学/互联网技术领域,涉及在互联网即时消息通讯(Instant Messaging)系统中实现实时的针对多个聊天用户对的消息自动派发功能,尤其涉及到运用统计自然语言处理技术对聊天消息进行的自动识别目的对象以达到自动派发功能。
背景技术
互联网即时消息通讯(Instant Messaging,IM)系统,俗称为聊天系统,大大方便人民群众利用网络进行远程对话和交流。例如,腾讯公司的QQ和微软公司的MSN都是互联网上较为流行的即时消息通讯系统。现有的基本的即时消息通讯系统包含登录,消息发送和接收,好友管理和分组,消息窗口进程的发起和结束等模块。用户发出某种既定的操作,即可生成一个对话窗口,可以与在线的其他用户进行交流。
然而在现有的即时消息通讯系统或者聊天工具的功能主要是提供基本的双人或多人聊天功能,没有其他智能化的优化体验。用户需要维持多个不同的聊天窗口,以进行多个不同对象的聊天。这多半会造成用户的困扰,因为为了和多个不同的聊天对象交流,用户A需要手动的在多个窗口中切换,而每个窗口可能是如此的相似,以致A发给用户U1的消息错发给用户U2是时常发生的情况。
在现实世界中,人们在多人交流的场景中各自都能基本上辨识来自某个人的发言是否需要自己给予立即回复或者反馈,例如,在一个会议中的讨论阶段,多个子议题正在被讨论,某个与会人员是否应该立即回答另外一个人的问题或者是否立即就另一人的发言进行反馈,首先就会基于自己和对方是否处于同一子议题,并且,对已经刚刚进展到的活动话题处于感兴趣阶段。
统计自然语言处理技术是一个包含广泛研究点的计算机科学,它是使计算机用数学统计和机器建模学习的方法来理解和掌握自然的人类语言。包括词法和句法分析,语义消歧,文本聚类和分类等技术,形成的应用主要有机器翻译,信息检索,自动问答系统,信息过滤等等。
因此,在互联网IM聊天工具中,计算机亦可以通过自然语言的某种相关性的计算,智能的判断即时消息的接收对象,简化用户操作,以增进用户体验。但目前传统的互联网IM工具都还没有包含此项功能。
发明内容
本发明所要解决的技术问题是提供一种互联网即时消息通讯系统,具有智能化消息派发功能,为用户使用互联网即时消息通讯提供方便。
为了解决上述技术问题,本发明提出一种互联网即时消息通讯系统,包括即时消息框架组件,所述即时消息框架组件用于提供即时消息通讯功能,包括用户登录管理模块,好友管理模块,后台数据管理模块,消息发送和接收通信模块,所述后台数据管理模块用于即时消息在后台数据库的读写控制;
其特征在于,还包括智能消息派发组件,所述智能消息派发组件包括消息上下文检索模块,分词和停用词预处理模块,关联模型模块,对象指派模块;
所述消息上下文检索模块连接所述后台数据管理模块,用于按照一定策略查找所述后台数据管理模块所管理的历史消息以及当前待发送消息,将结果发送到所述分词和停用词预处理模块;
所述分词和停用词预处理模块用于去除语句噪音,生成规范的语句数据表示,将结果发送到所述关联模型模块;
所述关联模型模块用于根据对消息上下文的关联分析,确定消息接收者;
接收者的自动判别实际上是对用户的消息进行分组,以此分配到不同对话中去。当用户输入消息M,自动派发组件利用消息的环境,引入关联模型,估计新消息与已存在对话之间的语义相关性。假设用户Ua同时维护了n个对话C1,C2,...,Cn,则Ua发出的消息M将被与所有对话进行相关性计算得到Rlv(M|Ci),i=1~n。然后找出最大的Rlv值,记做MaxRlv,则消息M就会被发至MaxRlv所在的接收者。首先分析消息的上下文以定义关联模型策略;接着分析语义关联;最后通过词-词的翻译概率获得语义关联计算公式所需要的输入参数值。这样,就得到了完整的计算语义相关性的结果,将这个结果运用于新消息M与n个对话的关联计算,即可判断出消息接收者,从而做到即时消息的自动派发。
所述对象指派模块用于将关联模型模块确定的结果通知所述即时消息架构组件的消息发送和接收通信模块。
作为优选方案,本发明还包括对话管理器,所述对话管理器用于为用户会话提供界面,对话管理器接收并显示所述消息发送和接收通信模块接收到的消息;接受用户输入的待发消息并发送到的所述后台数据管理模块。
进一步优选的,所述智能消息派发组件还包括带训练数据的统计翻译模块,所述带训练数据的统计翻译模块用于语义数据的训练和语义词汇关联的集合的建立。
本发明的智能消息自动派发组件可以由用户随意开启和关闭,用户也可以在消息真正到达目的前,系统给出预测的对象目的后手动纠正可能发生的错误判断,由于本系统记录每个对话的本次已发生的消息,所以每次纠正都会供后续的指导计算机自主学习,使得派发逐渐趋向于准确。当用户发起多个不同聊天对象的对话时,初始情况下系统调阅该用户与各个对象用户的历史记录,进行初始的消息关联计算,如果没有历史记录,则和普通IM工具一样需要用户手动进行分发,积累了几个对话之后智能消息派发组件开始运作。
本发明采用了统计自然语言技术的信息检索,机器翻译等处理方法,在互联网IM系统的单一窗口而多消息接收对象的环境下,通过构建语义关联模型,计算新消息与各个不同对话的已存在消息的语义相关性,选择最相关的对话,从而实现消息到对应的接收者的自动派发,使用户在聊天过程更具有轻松、方便的体验。
附图说明
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
图1为具有聊天消息自动派发功能的智能即时通讯工具系统模型。
图2为智能消息派发组件的系统框图。
具体实施方式
本发明所述的具有聊天消息自动派发功能的智能即时通讯工具系统模型如图1。系统主要由即时消息软件架构组件和智能消息派发组件构成,对话管理器作为即时消息架构上的模块,用于管理用户与多个其他IM用户聊天的过程。
IM即时消息框架组件采用现今任何一种流行的IM聊天工具所用的架构模型即可,主要包括但不限于登录管理,好友管理,后台数据管理模块,消息发送和接收通信模块。此组件起到一个框架支撑作用,为本发明提供消息传递的平台。并且,此组件将直接与本地数据库通信,以获取聊天历史记录,聊天对象信息等等。
对话管理器则是提供一个用户会话的接口,是面向用户的聊天窗口,包括多个对话的消息接收者的即时消息会话管理,以及用户的发送消息输入界面。用户输入所要发送的东西,系统将利用智能消息派发组件提供的结果获得消息的目的用户对象,经过用户可能进行的确认或调整后即把消息通过调用IM即时消息框架组件的消息收发模块发送至该聊天对象。
智能消息派发组件是本发明的核心组件,该组件实现自动检测消息接收者功能。
如图2所示,智能消息派发组件包括消息上下文检索模块、分词和停用词预处理模块,带训练数据的统计翻译模块,关联模型模块,对象派发模块。
消息上下文检索模块连接所述后台数据管理模块,用于按照一定策略查找所述后台数据管理模块所管理的历史消息以及当前待发送消息,将结果发送到所述分词和停用词预处理模块。在用户可能维系若干个对话的环境下,对话刚开始时,如果所有发起的对话中有一个从未有过历史消息,那么需要提示用户手动选择消息的目的。
分词和停用词预处理模块是此组件的先行模块,为生成统一的数据的表示,去除噪音而作的准备。汉语是一种字字连续的语言,字与字之间无空格或者其他标识,而实际的语义往往由两个字或者多个字组成的词或者短语构成,所以为了准确的掌握一句话的意思,机器也需要首先对汉语的句子进行按词切分。停用词是指一些无意义的虚词,或者按具体需求指定不处理的词,为了不造成过多冗余的计算,甚至产生危害系统效果的噪音,需要对一些词进行去除。
关联模型模块用于根据对消息上下文的关联分析,确定消息接收者。接收者的自动判别实际上是对用户的消息进行分组,以此分配到不同对话中去。当用户输入消息M,自动派发组件利用消息的环境,引入关联模型,估计新消息与已存在对话之间的语义相关性。假设用户Ua同时维护了n个对话C1,C2,...,Cn,则Ua发出的消息M将被与所有对话进行相关性计算得到Rlv(M|Ci),i=1~n。然后找出最大的Rlv值,记做MaxRlv,则消息M就会被发至MaxRlv所在的接收者。首先分析消息的上下文以定义关联模型策略;接着分析语义关联;最后通过词-词的翻译概率获得语义关联计算公式所需要的输入参数值。这样,就得到了完整的计算语义相关性的结果,将这个结果运用于新消息M与n个对话的关联计算,即可判断出消息接收者。
对象指派模块用于将关联模型模块确定的结果通知所述即时消息架构组件的消息发送和接收通信模块。
另外,关联模型模块需要通过带训练数据的统计翻译模块来提前构建。具体方法包括1)基于机器翻译的语料训练机制以获取词-词关联,2)建立了科学的消息关联模型。
1)基于机器翻译的语料训练,获得词-词关联。
带训练数据的统计翻译模块通过对语料的训练得到词wi与词wj之间的翻译概率trans(wj|wi)。如果两个词是同一自然语言,那么就可以理解为词wi到词wj的相关性转移概率。设语料S={(s1,s1′),(s2,s2′),...,(sn,sn′)},每个句子对(si,si′)具有相似的意思但是组成的词不同,通过使用既定的统计翻译模型(IBM统计翻译模型)可以得到词-词的翻译概率,si中的词可以“翻译”为si′中的词。
语料的选取采用抓取网络上的社区互助问答系统即QA问答系统的问答材料的方法获得。引入一个网络爬虫即自动网页抓取分析器,把QA问答系统中的QA问答对抓取下来存档,就获得了初始待训练语料。之所以采用网络社区互助问答系统作为训练语料,是因为目前可用的公开的标准平行语料库还没有,而QA问答对具有如下特性:第一,因提问者和回答者就同一话题的表达习惯可能不同,可以提供相似语义的不同词汇;第二,QA问答近似于IM聊天的短对话,具有情境上的较大相似;第三,QA社区的问答材料的类别,话题足够丰富,具有构成语料的条件。
在本例中,15000个问答对被系统采集到,于是构成了语料T:
T={(q1,a1),(q2,a2),...,(q15000,a15000);(a1,q1),(a2,q2),...,(a15000,q15000)}
来获得词wi至词wj的翻译概率trans(wj|wi)。翻译模型采用IBM统计翻译模型1。将语料经过上文所述切词和停用词过滤预处理之后,输入该模型,就得到了词语间的翻译概率。每一个词a,如果和某个词b产生的翻译概率大,就表示这两个词具有语义上的近似度。
2)消息关联模型。
为了计算新消息M和每个对话C之间的关联程度Rlv(M|C),逐个对M与C中暂存的每一句话进行计算,并采取时间距离加权策略,求得最大值,即为两者的关联度。即:
Rlv ( M | C ) = max i = 1 K 1 dist ( M , m i ) Rlv ( M | m i )
其中,K是C中消息总数,mi是C中第i个消息,dist(M,mi)表示M与mi发生的时间上的距离(以秒计算),考虑到时间秒数的权值与话题转化速率的关系,采用开根号的加权较为合适。
为了计算消息间的关联Rlv(M|mi),引入了一个在语言建模框架下的基于翻译的挖掘词-词翻译概率的信息检索模型,即:
Rlv ( M | m i ) = Π q ∈ M P ( q | m i )
其中,q表示M中的一个词语,P(q|mi)表示从消息mi到q的生成概率,为了计算一个文本和一个词语的关联即P(q|mi),把词语视为此文本的一个翻译结果生成,则可得到:
P ( q | m i ) = ( 1 - λ ) Σ w ∈ m i trans ( q | w ) P ml ( w | m i ) + λ P ml ( q | D )
其中,w是mi中出现的词语,trans(q|w)表示词w至词q的翻译概率,D表示该对话中所有的消息集合,Pml(q|D)一项是引入的线性插入项,为了避免零概率的产生。λ是平滑因子,经验值一般取0.8。设|D|和|mi|分别表示D和mi的长度,则Pml(w|mi)=tf(w,mi)/|mi|,Pml(q|D)=tf(q|D)/|D|。
综合上述分析,即可得到消息关联模型:
Rlv ( M | C ) = max i = 1 K 1 dist ( M , m i ) Π q ∈ M [ ( 1 - λ ) Σ w ∈ m i trans ( q | w ) P ml ( w | m i ) + λ P ml ( q | D ) ]
另外,需要假设trans(w|w)≡1,这表示自身翻译概率始终为1。显然,消息关联模型依赖于基于机器翻译的语料训练,获得词-词关联的带训练数据的统计翻译模块的构建,即需要得到trans(q|w)的值,参见上文1)的叙述。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种互联网即时消息通讯系统,包括即时消息框架组件,所述即时消息框架组件用于提供即时消息通讯功能,包括用户登录管理模块,好友管理模块,后台数据管理模块,消息发送和接收通信模块,所述后台数据管理模块用于即时消息在后台数据库的读写控制;
其特征在于,还包括智能消息派发组件,所述智能消息派发组件包括消息上下文检索模块,分词和停用词预处理模块,关联模型模块,对象指派模块;所述智能消息派发组件还包括带训练数据的统计翻译模块,所述带训练数据的统计翻译模块用于语义数据的训练和语义词汇关联的集合的建立;所述关联模型模块通过所述带训练数据的统计翻译模块来提前构建,具体包括1)基于机器翻译的语料训练机制以获取词-词关联,2)构建消息关联模型;
所述消息上下文检索模块连接所述后台数据管理模块,用于按照一定策略查找所述后台数据管理模块所管理的历史消息以及当前待发送消息,将结果发送到所述分词和停用词预处理模块;
所述分词和停用词预处理模块用于去除语句噪音,生成规范的语句数据表示,将结果发送到所述关联模型模块;
所述关联模型模块用于根据对消息上下文的关联分析,确定消息接收者;当用户输入消息M,智能消息派发组件利用消息的环境,引入关联模型,估计新消息与已存在对话之间的语义相关性;假设用户Ua同时维护了n个对话C1,C2,…,Cn,则Ua发出的消息M将被与所有对话进行相关性计算得到Rlv(M|Ci),i=1~n;然后找出最大的Rlv值,记做MaxRlv,则消息M就会被发至MaxRlv所在的接收者;
所述对象指派模块用于将关联模型模块确定的结果通知所述即时消息框架组件的消息发送和接收通信模块。
2.根据权利要求1所述的互联网即时消息通讯系统,其特征在于还包括对话管理器,所述对话管理器用于为用户会话提供界面,对话管理器接收并显示所述消息发送和接收通信模块接收到的消息;接收用户输入的待发消息并发送到所述后台数据管理模块。
CN2010101754313A 2010-05-18 2010-05-18 一种互联网即时消息通讯系统 Expired - Fee Related CN101834809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101754313A CN101834809B (zh) 2010-05-18 2010-05-18 一种互联网即时消息通讯系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101754313A CN101834809B (zh) 2010-05-18 2010-05-18 一种互联网即时消息通讯系统

Publications (2)

Publication Number Publication Date
CN101834809A CN101834809A (zh) 2010-09-15
CN101834809B true CN101834809B (zh) 2013-04-24

Family

ID=42718742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101754313A Expired - Fee Related CN101834809B (zh) 2010-05-18 2010-05-18 一种互联网即时消息通讯系统

Country Status (1)

Country Link
CN (1) CN101834809B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262624A (zh) * 2011-08-08 2011-11-30 中国科学院自动化研究所 基于多模态辅助的实现跨语言沟通系统及方法
CN104598443B (zh) * 2013-10-31 2018-05-18 腾讯科技(深圳)有限公司 语言服务提供方法、装置及系统
CN105469789A (zh) * 2014-08-15 2016-04-06 中兴通讯股份有限公司 一种语音信息的处理方法及终端
CN105450853B (zh) * 2015-11-02 2018-11-23 广东欧珀移动通信有限公司 一种预防聊天信息错发的方法、装置及移动终端
WO2018107580A1 (zh) * 2016-12-15 2018-06-21 华为技术有限公司 一种信息提示的方法及装置
US11586341B2 (en) * 2017-02-15 2023-02-21 Google Llc Structured response summarization of electronic messages
CN109002501A (zh) * 2018-06-29 2018-12-14 北京百度网讯科技有限公司 用于处理自然语言对话的方法、装置、电子设备以及计算机可读存储介质
CN109617792A (zh) * 2019-01-17 2019-04-12 北京云中融信网络科技有限公司 即时通讯系统及广播消息分发方法
CN111221303B (zh) * 2019-12-08 2021-10-19 华中科技大学同济医学院附属协和医院 一种基于can总线的自动化办公用会议演示系统及其控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005094509A2 (en) * 2004-03-23 2005-10-13 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
CN101388923A (zh) * 2008-10-31 2009-03-18 华中科技大学 收发远程短信的方法
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005094509A2 (en) * 2004-03-23 2005-10-13 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
CN101388923A (zh) * 2008-10-31 2009-03-18 华中科技大学 收发远程短信的方法
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王彬等.口语对话系统中的语句主题提取.《计算机工程与应用》.2004,(第18期),全文. *

Also Published As

Publication number Publication date
CN101834809A (zh) 2010-09-15

Similar Documents

Publication Publication Date Title
CN101834809B (zh) 一种互联网即时消息通讯系统
CN105591882B (zh) 一种智能机器人与人混合客服的方法及系统
CN112365894B (zh) 基于ai的复合语音交互方法、装置及计算机设备
CN106328166B (zh) 人机对话异常检测系统及方法
CN111192060B (zh) 一种基于电力it服务全渠道自助应答实现方法
CN112818107B (zh) 一种用于日常生活的对话机器人及其聊天方法
CN106326440B (zh) 一种面向智能机器人的人机交互方法及装置
CN107870994A (zh) 用于智能机器人的人机交互方法及系统
CN109509471A (zh) 一种基于vad算法打断智能语音机器人对话的方法
CN109739971A (zh) 一种基于微信小程序实现全双工智能语音对话的方法
CN107315742A (zh) 具有人机对话功能的拟人化口语翻译方法及系统
CN106020488A (zh) 一种面向对话系统的人机交互方法及装置
CN101207655A (zh) 通信会话中在话音和文本交换形态之间切换的方法和系统
CN102017513A (zh) 基于开放体系结构的依赖于域的实时多语种通信服务
CN109977202A (zh) 一种智能客服系统及其控制方法
CN109005190B (zh) 一种在网页上实现全双工语音对话和页面控制的方法
CN114238607B (zh) 深度交互式ai智能求职顾问方法、系统及存储介质
CN106557165B (zh) 智能设备的动作模拟交互方法和装置及智能设备
CN117332072B (zh) 对话处理、语音摘要提取以及目标对话模型训练方法
CN108882111A (zh) 一种基于智能音箱的交互方法及系统
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN111128175B (zh) 口语对话管理方法及系统
CN116600053A (zh) 一种基于ai大语言模型的客服系统
CN106878154A (zh) 会话消息生成方法及装置,电子设备
CN114064943A (zh) 会议管理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130424

Termination date: 20140518