CN101499277B - 一种服务智能导航方法和系统 - Google Patents

一种服务智能导航方法和系统 Download PDF

Info

Publication number
CN101499277B
CN101499277B CN2008101172442A CN200810117244A CN101499277B CN 101499277 B CN101499277 B CN 101499277B CN 2008101172442 A CN2008101172442 A CN 2008101172442A CN 200810117244 A CN200810117244 A CN 200810117244A CN 101499277 B CN101499277 B CN 101499277B
Authority
CN
China
Prior art keywords
service
candidate
classification
speech
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101172442A
Other languages
English (en)
Other versions
CN101499277A (zh
Inventor
王东升
曹存根
林乐宇
刘亮亮
曹亚男
卢汉
王石
曹馨宇
臧良俊
吴昱明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2008101172442A priority Critical patent/CN101499277B/zh
Publication of CN101499277A publication Critical patent/CN101499277A/zh
Application granted granted Critical
Publication of CN101499277B publication Critical patent/CN101499277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种服务智能导航方法,包括:对用户所提出查询语句的分词结果进行基于元数据的文法匹配;根据分词结果找出相匹配的词模模式,得到所述相匹配的词模模式所在的服务分类;将分词结果与描述性信息或业务性信息进行匹配查找,得到第一候选服务分类列表;对只有一个候选服务分类的第一候选服务分类列表,从唯一的候选服务分类中获取服务并返回给用户,若候选服务分类大于或等于两个,则对查询语句中的未登录串进行模糊理解,得到第二候选服务分类列表;根据第一候选服务分类列表与第二候选服务分类列表作融合操作,得到公共的候选服务分类,若其唯一,则返回服务给用户,若所述公共的候选服务分类不存在或多于一个,则导航失败。

Description

一种服务智能导航方法和系统
技术领域
本发明涉及人工智能计算机领域中的自然语言处理,特别涉及利用自然语言处理实现服务的智能导航。
背景技术
随着信息技术的发展,在现实生活中出现了多种类型的增值服务,如网站推出的彩铃下载、在线听歌等,移动服务器提供商所提供的移动服务是其中一种比较典型的增值服务。移动服务是指移动服务提供商在用户的要求下,为用户的移动终端提供包括彩铃下载、音乐下载在内的多种服务,移动服务的种类和数量会随着需求的增加而日益增多。
随着移动服务的种类和数量的增加,如何使用户方便、快捷地对具体的移动服务进行查找已经成为移动服务实现过程中亟待解决的问题。当前,用户要查找或使用移动服务时,需要记住服务的特服号以及使用方式,才能得到关于移动服务的具体信息,这给用户带来了很多困难,不利于移动服务的推广,也是造成当前移动服务使用率不高的关键原因。
为了方便包括移动服务在内的各种服务的推广,需要一种能够根据用户的提问自动返回相关信息的智能导航系统,而为了方便用户的使用,智能导航系统应当能够以自然语言的方式与用户进行交互。但在现有技术中,并不存在这样的智能导航系统。
发明内容
本发明的目的是克服现有技术中无法根据用户的提问自动返回与问题相关的服务信息,从而提供一种可针对用户的提问自动为其导航的方法及系统。
为了实现上述目的,本发明提供了一种服务智能导航方法,用于在元数据或服务分类本体中查找与用户查询语句相关的服务;所述元数据包括与所述服务相关的信息,以及所述信息与语义文法间的对应关系;所述服务分类本体包括词模模式;所述词模模式用于描述与所述服务分类本体相关的服务中所涉及的句子的模式;所述方法包括:
步骤1)、对用户以自然语言方式所提出查询语句的分词结果进行基于元数据的文法匹配,对于成功匹配所得到的服务信息返回给用户,结束对所述查询语句的导航,对于匹配未成功的分词结果执行下一步;
步骤2)、根据所述分词结果中的模板词或模板词类,找出与所述分词结果最为匹配的词模模式,然后得到所述词模模式所在的服务分类本体,返回所述服务分类本体中的服务给用户,结束对所述查询语句的导航操作;对匹配未成功的分词结果,所述分词结果所在的查询语句导航失败。
上述技术方案中,所述服务分类本体还包括描述性信息或业务性信息,所述的描述性信息包括用于自然语言理解的通用信息,所述的业务性信息用于表示具体业务;所述方法还包括:
步骤3)、将所述步骤2)中匹配未成功的分词结果与各个服务分类本体中的描述性信息或业务性信息进行匹配查找,对所得到的匹配查找结果按照所述描述性信息或业务性信息与所在服务分类本体间的映射关系,得到包含候选服务分类的列表,将该列表称为第一候选服务分类列表;
步骤4)、对于所述的第一候选服务分类列表,若所述列表中只有一个候选服务分类,则从该唯一的候选服务分类中获取服务并返回给用户,若所述列表中的候选服务分类大于或等于两个,则对候选服务分类列表所对应查询语句中的未登录串进行模糊理解,得到又一个候选服务分类列表,将该列表称为第二候选服务分类列表;
步骤5)、根据所述的第一候选服务分类列表与所述的第二候选服务分类列表作融合操作,得到公共的候选服务分类,若所述公共的候选服务分类唯一,则返回该候选服务分类中的服务给用户,若所述公共的候选服务分类不存在或多于一个,则对所述查询语句的导航失败。
上述技术方案中,所述的服务分类本体还包括用于唯一地描述所述服务分类本体的标志性词条;所述方法还包括:
对导航失败的查询语句中的分词结果与各个服务分类本体中的所述标志性词条进行匹配查找,若存在匹配结果,则将所述匹配结果所在服务分类中的服务返回给用户,否则,向用户返回导航失败信息。
上述技术方案中,在所述的步骤1)中,所述查询语句的分词结果与所述元数据中的语义文法进行比较,若所述分词结果与所述语义文法相对应,则将所述元数据中与所述语义文法存在对应关系的与所述服务相关的信息作为成功匹配所得到的服务信息返回给用户。
上述技术方案中,所述的步骤2)包括:
步骤2-1)、对所述分词结果中的模板词或模板词类,查找包含有所述模板词或模板词类的所有词模模式;
步骤2-2)、从步骤2-1)所得到的所有词模模式中选择最优词模模式作为相匹配的词模模式;
步骤2-3)、将所述最优词模模式所在服务分类中的服务返回给用户。
上述技术方案中,在所述的步骤2-2)中,采用TF\IDF扩展模型来确定所述词模模式与所述查询语句间的相对匹配强度,选择相对匹配强度最强的词模模式作为最优词模模式;其中,TF表示一个词模模式中的模板词或模板词类与某个词模模式的相关度;IDF表示一个模板词或模板词类在词模模式的主题的权重大小。
上述技术方案中,所述的TF\IDF扩展模型计算所述词模模式与所述查询语句间的相关度和不相关度,然后求所述的相关度与所述的不相关度的比值,得到所述词模模式与所述查询语句间的相对匹配强度;其中,
所述的相关度用Relativeness(Pt,Q)表示,其中的pt表示所述的词模模式,Q表示所述用户查询语句;
Relativeness ( p t , Q ) = Σ t i ∈ p t TF ( t i , p t ) × ID F t i × wordlen t i
其中,TF表示一个词模模式中的模板词或模板词类与某个词模模式的相关度,
TF ( t i , d t ) = count ( t i ) / Σ t j ∈ d t count ( t j )
其中,ti表示一个模板词或模板词类,dt表示某个词模模式,count(ti)是第ti个模板词或模板词类在词模模式dt中的计数;
IDF表示一个模板词或模板词类在词模模式的主题的权重大小,
ID F t i = log ( D / D t i )
其中,D是词模模式集的总数量,
Figure GSB00000330799900034
是包含了该模板词或模板词类的词模模式的总数;
表示模板词或模板词类的长度;
所述的不相关度用Irrelativeness(Pt,Q)表示,它表示用户查询语句中没有与词模pt相匹配的模板词或模板词类的IDF值的累加
Irrelativeness ( p t , Q ) = Σ t i ∉ p t TF ( t i , p t ) × ID F t i × wordlen t i .
上述技术方案中,在所述的步骤4)中,所述的模糊理解包括:
步骤4-1)、将所述查询语句与所述查询语句的分词结果进行比较,得到所述查询语句中的未登录串;
步骤4-2)、对所述未登录串中的各个字符分别查找包含各单个字符的候选词条,然后从所述候选词条中得到所述未登录串的候选模式串;
步骤4-3)、实现所述候选模式串与所述未登录串之间的模糊匹配,将模糊匹配成功的候选模式串作为模糊理解的结果。
上述技术方案中,所述的步骤4-2)包括:
步骤4-2-1)、判断所述查询语句的分词结果是否为空,若不为空,则根据所述分词结果中的词语在移动服务分类本体中查找相关词类,然后执行下一步,若为空,则直接根据所述未登录串中的各个字符分别查找包含各单个字符的候选词条,然后执行步骤4-2-3);
步骤4-2-2)、对所述未登录串中的各个字符,在满足相关词类的条件下分别查找包含各个单个字符的候选词条;
步骤4-2-3)、从所述的候选词条中选择可能性较大的候选词条作为未登录串的候选模式串。
上述技术方案中,在所述的步骤4-2-3)中,采用计分方式选择可能性较大的候选词条,所述候选词条每出现一次,为其计一次分,最后选择满足一定分值的候选词条作为可能性较大的候选词条。
上述技术方案中,在所述的步骤4-3)中,所述的模糊匹配包括:
步骤4-3-1)、比较所述候选模式串与所述未登录串的长度,若两者相差字符个数超过第一阈值时,返回不能匹配,否则执行下一步;
步骤4-3-2)、求取所述候选模式串与所述未登录串的极大公共子串,然后按照所述极大公共子串在候选模式串中出现的次序依次标出所述极大公共子串在所述未登录串中的位置值;
步骤4-3-3)、判断所述极大公共子串的数目,若所述极大公共子串的数目为0,则执行下一步,若所述极大公共子串的数目为1,则执行步骤4-3-5),若所述极大公共子串的数目大于1,则执行步骤4-3-6);
步骤4-3-4)、所述候选模式串与所述未登录串不能匹配,向用户返回不能匹配的标志,结束操作;
步骤4-3-5)、对所述候选模式串中除极大公共子串外的部分进行音近/音似匹配,若匹配成功则将该候选模式串作为模糊匹配的结果,若失败,则向用户返回不能匹配的标志,结束操作;
步骤4-3-6)、判断极大公共子串在候选模式串以及未登录串中的相对位置是否一致,若不一致,则返回不能匹配标志,否则,执行下一步;
步骤4-3-7)、对所述未登录串较所述候选模式串多写或漏写的情况,判断所有极大公共子串的长度之和占所述未登录串的百分比是否大于第二阈值,若大于或等于,则将所述候选模式串作为模糊匹配的结果,若小于则向用户返回不能匹配的标志,结束操作。
上述技术方案中,在步骤4-3-1)中,所述第一阈值为2。
上述技术方案中,在步骤4-3-7)中,所述第二阈值为0.8。
上述技术方案中,所述的步骤5)中包括:
步骤5-1)、对所述的第一候选服务分类列表与所述的第二候选服务分类列表做交操作,所得到的结果若存在唯一的公共移动服务分类,则将该移动服务分类中的移动服务返回给用户,否则,执行下一步;
步骤5-2)、对所述的第一候选服务分类列表进行扩展,将扩展后的第一候选服务分类列表与所述的第二候选服务分类列表做交操作,所得到的结果若存在唯一的公共移动服务分类,则将该移动服务分类中的移动服务返回给用户,否则,执行下一步;
步骤5-3)、对所述的第二候选服务分类列表进行扩展,将扩展后的第二候选服务分类列表与所述的第一候选服务分类列表做交操作,所得到的结果若存在唯一的公共移动服务分类,则将该移动服务分类中的移动服务返回给用户,否则,执行下一步;
步骤5-4)、将扩展后的第一候选服务分类列表与扩展后的第二候选服务分类列表做交操作,所得到的结果若存在唯一的公共移动服务分类,则将该移动服务分类中的移动服务返回给用户,否则向用户返回不能匹配的标志,结束操作。
上述技术方案中,所述的扩展操作包括将所述候选服务分类列表中的候选服务分类的子类也作为候选服务分类加入到列表中。
本发明还提供了一种服务智能导航系统,用于在元数据或服务分类本体中查找与用户查询语句相关的服务;所述元数据包括与所述服务相关的信息,以及所述信息与语义文法间的对应关系;所述服务分类本体包括词模模式;所述词模模式用于描述与所述服务分类本体相关的服务中所涉及的句子的模式;所述系统包括基于元数据的文法匹配模块、词模模式匹配模块;其中,
所述的基于元数据的文法匹配模块对用户以自然语言方式所提出查询语句的分词结果进行基于元数据的文法匹配,对于成功匹配所得到的服务信息返回给用户,结束对所述查询语句的导航,对于匹配未成功的分词结果转发给词模模式匹配模块;
所述的词模模式匹配模块根据所述分词结果中的模板词或模板词类,找出与所述分词结果最为匹配的词模模式,然后得到所述词模模式所在的服务分类本体,返回所述服务分类本体中的服务给用户,结束对所述查询语句的导航操作;对匹配未成功的分词结果,所述分词结果所在的查询语句导航失败。
上述技术方案中,还包括描述性信息或业务性信息匹配模块、模糊匹配模块以及融合操作模块;其中,
所述的描述性信息或业务性信息匹配模块将所述词模模式匹配模块中匹配未成功的分词结果与各个服务分类本体中的描述性信息或业务性信息进行匹配查找,对所得到的匹配查找结果按照所述描述性信息或业务性信息与所在服务分类本体间的映射关系,得到包含候选服务分类的列表,将该列表称为第一候选服务分类列表,然后将所述的第一候选服务分类列表转发给模糊理解模块以及融合操作模块;
所述的模糊匹配模块对于所述的第一候选服务分类列表进行判断,若所述列表中只有一个候选服务分类,则从该唯一的候选服务分类中获取服务并返回给用户,若所述列表中的候选服务分类大于或等于两个,则对候选服务分类列表所对应查询语句中的未登录串进行模糊理解,得到又一个候选服务分类列表,将该列表称为第二候选服务分类列表;
所述的融合操作模块根据所述的第一候选服务分类列表与所述的第二候选服务分类列表作融合操作,得到公共的候选服务分类,若所述公共的候选服务分类唯一,则返回该候选服务分类中的服务给用户,若所述公共的候选服务分类不存在或多于一个,则对所述查询语句的导航失败。
上述技术方案中,还包括标志性词条匹配模块;
所述的标志性词条匹配模块对导航失败的查询语句中的分词结果与各个服务分类本体中的所述标志性词条进行匹配查找,若存在匹配结果,则将所述匹配结果所在服务分类中的服务返回给用户,否则,向用户返回导航失败信息。
本发明的优点在于:
1、本发明将基于元数据的文法匹配、词模模式匹配、描述性信息或业务性信息匹配以及标志性词条匹配等多种方式相结合,实现了对自然语言的理解,从而为用户以自然语言方式提出的查询语句实现智能导航。
2、本发明提供了多种匹配方式,使得本发明的智能导航方法具有灵活性与精确性。
3、本发明通过对服务分类本体的定义,有效地组织了移动服务信息,使得本发明的方法能够对海量的移动服务请求进行处理。
4、本发明实现了对用户查询语句的模糊理解,从而能够自动纠正用户的错误输入,更好地为用户服务。
5、本发明允许服务提供商对服务分类本体进行重新定义或添加,使得本发明能够适用于不同的应用需求,从而具有良好的适应性和可扩展性。
6、本发明可以提供两种方式的智能导航,通过基于元数据的文法匹配可以在用户已知服务名称时,将与该服务相关的信息返回给用户,通过词模模式匹配、描述性信息或业务性信息匹配以及标志性词条匹配等方式在用户不知道服务名称时,将用户的查询语句导航到一个具体的服务上。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1为本发明的服务智能导航方法的流程图;
图2为本发明的服务智能导航方法中根据词模模式进行匹配的方法的流程图;
图3为本发明的服务智能导航方法中根据描述性信息或业务性信息进行匹配的方法的流程图;
图4为本发明的服务智能导航方法中的模糊理解方法的流程图;
图5为本发明的服务智能导航方法中的候选模式串生成方法的流程图;
图6为本发明的服务智能导航方法中候选模式串与未登录串进行模糊匹配的方法的流程图;
图7为本发明的服务智能导航方法中融合操作流程的示意图,图中的fuzzy_cate_list表示模糊理解得到的服务类列表,Decom_cate_list表示精确分词得到的服务类列表。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。
在本实施例中,以用于实现移动服务的查找和使用的智能导航方法为例,对本发明如何实现对用户语句的智能导航进行说明。本发明中所述的智能导航包括两个方面,一是用户已知某个服务的名称,需要知道服务的具体属性信息,例如,用户已知彩铃业务,需要对彩铃业务的收费信息进行提问,此时的智能导航应当返回彩铃业务在资费方面的信息;二是用户不知道具体服务的名称,例如,用户提出“在哪里可以下载周杰伦的千里之外?”,此时的智能导航应当通过理解将其导航到某一个具体的业务上(如彩铃业务)。
下面对本发明的方法和系统如何实现上述的智能服务导航进行说明,但在说明之前,还要对本发明中所涉及的数据结构进行描述。
由于在移动服务中存在着各种类别的服务分类,如手机铃声下载、音乐搜索、在线试听、电影下载等,因此需要对这些服务分类分门别类地进行管理,以方便用户的查找和使用。在本发明中,为了管理的需要采用移动服务分类本体对这些具体的服务分类进行组织和描述。其中所涉及的本体是一个为描述某个领域而按继承关系组织起来作为一个知识库的骨架的一系列术语,是对某个领域中的概念的形式化的明确表示。本体中每个概念的特性描述了概念的各个方面及其约束的特征和属性。在移动服务领域,本申请抽象出一系列概念(即服务分类),并用各种描述信息来描述这些概念的特性及约束,并将这些概念按继承关系组织起来,形成领域本体(即本发明中的移动服务分类本体)。
在移动服务中,不同的服务分类间还可能存在一定的层次关系,因此用于表示服务分类的移动服务分类本体之间也可以采用树结构表示它们之间的层次关系,下面是关于移动服务分类本体的一个形式化描述:
deframe类别标准名称
{
    描述性信息:用于自然语言理解的通用信息
      描述性词类:对描述性信息进行分类的信息,如“地点疑问词”
           描述性词条:未归类的其他描述性信息
         业务性信息:由移动服务的各个服务提供商(SP,Service 
Provider)来提供的具体业务信息
           服务已有词类:SP已提供的具体词类信息
           服务缺失词类:SP未能提供的具体词类信息
         标志性词条:该词用于唯一描述该类
         词模模式:描述该服务的句子模式
      }
在采用本发明的方法实现对移动服务的智能导航的一个实施例中,建立了包括八个大类的移动服务分类本体(包括新闻天气、生活时尚、教育文化、电子商务、休闲娱乐、交友情感、个人\团体助理、职业生涯等),在各个大类下又可以增加新的业务子类,如对于休闲娱乐类下,按照层次由上到下的服务类有:音乐视频、音乐搜索、手机铃声、多媒体铃声等。用户可以根据具体的应用,增加或修改顶层业务类型,在不同的业务类别下添加新的业务子类(Subclass),或者具体的业务实例(Instance)。
下面针对移动服务分类本体的上述形式化描述,给出了两种服务的对应移动服务分类本体,然后对其中的内容进行说明。
1、手机铃声类的本体
    deframe手机铃声类
    {
    描述性信息:
          描述性词类:彩铃词类、下载词类
          描述性词条:彩铃、铃声、无线音乐
    业务性信息:
          服务已有词类:多媒体彩铃名
          服务缺失词类:Null
    标志性词条:Null
    词模模式:
    [<!怎么疑问词类>]*<!取消词类>*<!彩铃词类>@2#取消彩铃功能
    <手机>*<铃声|彩铃>@2#介绍彩铃
    [<在哪里|哪儿|哪处|何处|如何|怎么|怎样>]*<下载|获取|搜索|找到|有
>*<歌|的歌|的音乐|音乐|曲|铃声|彩铃>@2#彩铃开通方法
对应服务:彩铃
父类列表:音乐搜索类
子类列表:多媒体铃声类
}
2、音乐搜索类的本体
    deframe音乐搜索类
    {
    描述性信息:
          描述性词类:Null
          描述性词条:音乐,歌曲,下载,试听
    业务性信息:
          服务已有词类:音乐名、歌手名、专辑名
          服务缺失词类:Null
    标志性词条:音乐搜索
    词模模式:
    <下载|获取|搜索|找到|有>*<歌|的歌|的音乐|音乐|曲>@2#音乐搜索介
    对应服务:音乐搜索
    父类列表:音乐视频
    子类列表:手机铃声类
    }
在上述类中,所涉及到的描述性信息是指用于自然语言理解的通用信息,它可以包括描述性词类和描述性词条两种信息。在描述性词类中,包含了对描述性信息进行分类的信息,例如,“彩铃词类”是对一些描述彩铃的词条的类型概括,如“彩铃”、“铃声”、“铃音”等词条都可以归类到“彩铃词类”中,而对于“在哪里”,“怎么走”等描述问路的一些词条可以归类到“地点疑问词”中。在描述性词条中,则包含了未归类的其他描述性信息。
在上述类中,所涉及到的业务类信息是指由移动服务的提供商所给出的具体业务的信息,它包括服务已有词类和服务缺失词类。在服务已有词类中包括有服务提供商已经提供的具体词类信息,如上述两个类中的“多媒体彩铃名”、“音乐名”、“歌手名”等。服务缺失词类中包括有服务提供商未能提供的具体词类信息,在实际应用中,服务缺失词类通常为空。
在上述类中,还包括有标志性词条,它用于唯一地描述所在的类,如上例中,“音乐搜索”可作为音乐搜索类的标志性词条,当用户问句中出现这一词条时,可将其导航到音乐搜索类。
在上述类中所涉及的词模模式用于描述与类相关的服务中所涉及的句子的模式。对于特定的服务,用户对该类服务进行请求、查找或使用时所采用的句子通常有一定的模式,在此处的词模模式中就是对这些句子的模式进行概括,同时,词模模式还包括了对服务的业务属性的导航,如词模“[<!怎么疑问词类>]*<!取消词类>*<!彩铃词类>@2#取消彩铃功能”,当用户查询语句与这一词模相匹配时,可将其导航到彩铃服务,并返回给用户相应的业务属性方面的信息,在这里是指“取消彩铃功能”方面的信息。
上述类中的对应服务就是指出了与当前类相关的服务的名称。如音乐搜索类中,相关的服务名称就是“音乐搜索”。在手机铃声类中,相关的服务名称是“彩铃”等。
上述类中的父类列表和子类列表给出了当前类的父类和子类信息,通过这些信息,可以知道当前类与其它类之间的层次关系。在上述两个例子中,音乐搜索类是手机铃声类的父类,从两个类中的相关信息还可以看出,音乐搜索类还具有名称为音乐视频的父类,手机铃声类还具有名称为多媒体铃声的子类。
在为移动服务定义上述类后,对用户的查询语句进行导航的最终导航目标是各个移动服务类,通过移动服务类再找到具体的移动服务。这样做使得移动服务提供商不需要因为增减或改动具体的移动服务而对导航系统的理解策略进行改动,将移动服务分类本体作为中间层,有助于提供系统的通用性和可移植性。此外,移动服务分类本体有效地组织了海量的移动服务项目,有利于管理和维护;在移动服务分类本体中针对服务类型添加各种描述型信息,而不是具体的移动服务,可以减少数据冗余。
在对本发明的导航方法中所涉及的相关服务类进行说明后,参考图1并结合下面具体的实例对本发明的方法进行具体的说明。
假设用户以自然语言的方式向系统发出了以下查询语句:
查询语句1:彩铃怎么取消?
查询语句2:我想知道彩铃下载业务是怎么收费的?
查询语句3:在哪里可以下载周杰轮的菊花台?
要理解上述查询语句并根据语句的语义返回对应的移动服务信息,首先就要对查询语句进行分词操作。所谓的分词操作就是要将一个句子划分成词语或词组,以方便在后续操作中实现对句子语义的理解。分词操作的实现是成熟的现有技术,在本发明中可以在现有的知识库词典及关键词词典的基础上实现,在此不再对其具体实现过程进行说明。下面只给出上述查询语句的分词结果。
查询语句1的分词结果:彩铃(模板词)怎么(怎么疑问词类)取消(取消词类)?
查询语句2的分词结果:我(人称代词)想(句型词)知道(句型词)彩铃下载(移动业务)业务(句型词)是(句型词)怎么(疑问词)收费(句型词)。
查询语句3的分词结果:在哪里(地点疑问词|模板词)可以(句型词)下载(描述词|模板词)菊花台(音乐名)。
从上面的分词结果可以看出,在分词结果中除了给出句子经过分词后的各个词语外,还给出了各个词语的相关属性。例如,“我”是“人称代词”,“菊花台”是音乐名等。应当注意的是,在查询语句3中,由于用户的书写错误,将“周杰伦”错写为“周杰轮”,因此,“周杰轮”并没有作为一个已知的词被分词操作识别出来,也就没有被包括在分词结果中。对于这类由于书写错误或其它原因而无法在分词操作中被识别的字符串,在本发明中用未登录串表示,未登录串将在后续的模糊理解过程中得到应用。另外,由于句子中的某一个词语既可以与前面的词语相结合形成词组,也可以与后面的词语相结合形成词组,因此,一个句子可能会有多个分词结果,对于这种情况,一个句子在分词后所得到的是包含多个分词结果的分词结果集。在分词结果集中通常会根据分词结果的可能性按照从高到低的顺序为分词结果进行排序。
在得到查询语句的分词结果后,就要将查询语句中的词语与移动服务分类进行匹配,根据匹配结果找到具体的移动服务分类,然后根据移动服务分类向用户返回具体的移动服务,从而实现对移动服务的导航。本发明在查找具体的移动服务分类的过程中,为了提高查找的效率和查找的准确率,对这一过程进行了分层、多次的操作,具体而言,对于一个分词结果,先后要将其与基于数据的文法、基于服务分类本体中的词模模式、基于服务分类本体中的描述性信息或业务性信息、以及基于服务分类本体中的标志性词条进行匹配,只要满足其中的一个匹配条件即可退出导航过程,只有所有的匹配条件都不满足,才会认为导航失败。下面结合前面所给出的三个查询语句,对各个过程进行详细的说明。
分词结果首先要与基于元数据的文法进行匹配操作。此处所述的元数据是指与服务定制方法、服务资费等内容相关的数据,用于刻画服务业务各方面信息的元数据形成一个元数据集。例如,有一个关于移动服务的如下元数据集:
1、服务名称
2、服务描述;
3、服务主题
4、服务提供商
5、服务订制方法
6、服务取消方法
7、服务开通地区
8、服务资费
9、服务开通日期
10、服务类别
11、服务构成
12、服务终端设备
13、服务使用方式
14、服务适用对象
15、返回用户的短信内容
16、服务支持的终端型号
17、单向服务关联
18、双向服务关联
在上述元数据集的每一个元数据项中定义有至少一种语义文法,以上述元数据集中的第8项“服务资费”为例,假设该项有以下语义文法:
[<!人称代词>];[<想|要|希望>];[<知道|了解|明白|清楚>];<?C1(移动服务)>;[<服务|业务>];[<是>];<!怎么疑问词>;<资费|收费|付费|钱|价格|贵|元|计费|费用>”。
其中的“!”表示后续字符串是系统定义的类常量;?C1表示文法变量,待与用户的查询语句进行匹配。
从上面查询语句2的分词结果可以看出,查询语句2的分词结果与元数据“服务资费”的语义文法十分匹配,因此,可以向用户返回与“彩铃下载”的资费相关的信息,即查询语句2匹配成功。在本实施例中,查询语句2只有一种分词结果,因此,该分词结果与元数据的语义文法匹配后,就认为查询语句2匹配成功。但在前面已经提到,一个查询语句可能会有多个分词结果,由于在分词结果集中的分词结果是按照可能性的高低做了排序的,因此只要有一个分词结果匹配成功,我们就认为整个查询语句匹配成功。对于其它分词结果不再做基于元数据的匹配操作或其它后续的匹配操作。
通过上述的基于元数据的文法匹配,可以实现对前述的第一种智能导航的实现,即当用户已知某个服务的名称时,返回该服务的具体属性信息。
假设查询语句1和查询语句3的分词结果在元数据集中没有找到可以实现文法匹配的元数据,因此查询语句1和查询语句3需要进行后续的匹配操作。在后续的匹配操作中,要用到前述定义的移动服务分类本体。在移动服务分类本体中的信息基本可以分为四个类别,分别是描述性信息、业务性信息、词模模式和标志性词条。由于词语本身通常具有歧义性,而词模模式是词的一种组合方式,具有更强的语义约束能力。因此,为了克服由于歧义而造成的误判现象,首先采用移动服务分类本体中的词模模式与分词结果进行匹配。例如,“在哪里”这一短语通常是与地图服务等移动业务的用户提问相关的,如“中科院计算所在哪里?”。但在另一个句子“在哪里可以下载周杰伦的千里之外?”中,该查询语句想要得到的服务应该是彩铃下载这一类服务,而不是任何地图类的服务。所以单纯地将“在哪里”与地图服务或彩铃下载相关联,并不能解决实际应用中的歧义问题,也无法准确地定位服务类,在这种情况下,词模模式可以很好地解决词语歧义的问题。
在前述的两个移动服务分类本体中已经给出了两个词模模式的范例,在这些范例中,“*”表示通配符,“[]”表示所包含的成分在词模模式中是可选部分,“<>”表示所包含成分在词模模式中是必选部分,“@2”表示当用词模模式与用户查询语句匹配时,不必遵守顺序,“@1”表示当用词模模式与用户查询语句匹配时,应当严格遵守顺序,“#”后面所接的是对应业务的元属性。
假设对查询语句1的分词结果查找词模模式,如图2所示,首先需要在分词结果中查找模板词或模板词类(即组成词模模式的某一元素),若查找有结果,则根据模板词或模板词类找到所有相匹配的词模模式。相匹配的词模模式之所以有多种,是因为一个模板词或模板词类可能在多个词模模式中存在,以查询语句1为例,查询语句1中的模板词“彩铃”就可能在两个词模模式中存在,因此得到两个与之相匹配的候选词模模式:
P1:<彩铃|铃声|铃音>@2#介绍彩铃功能
P2:[<!怎么疑问词类>]*<!取消词类>*<彩铃|铃声>@2#取消彩铃功能
得到候选词模模式后,还要在候选词模模式中选择最优的词模模式。对最优词模模式的选择是通过计算用户查询语句与候选词模模式间的相关度得到的。在本发明的一个实施例中通过对信息检索中的TF\IDF模型进行扩展来实现对最优词模模式的选择。下面对其具体实现过程进行说明。
在搜索引擎中,一个关键的问题是如何度量网页和用户查询的相关度,并返回给用户按相关度进行排序的结果集,TF\IDF模型就用于解决这一问题。将TF\IDF模型应用在本发明中,则候选的词模模式集就相当于网页,用户查询语句就相当于在搜索引擎中输入的查询,结果是候选的词模模式与用户查询语句匹配成分所计算出的相关度,即相关度。下文所涉及到的term就是组成词模模式的模板词或模板词类。
TF(Term Frequency):表示一个term与某个词模模式的相关度。公式为:
TF ( t i , d t ) = count ( t i ) / &Sigma; t j &Element; d t count ( t j )
其中,ti表示一个term,dt表示某个词模模式,count(ti)是
Figure GSB00000330799900152
在词模模式dt中的计数。
IDF(Inverse Document Frequency)表示一个term在词模模式的主题的权重大小。主要是通过包含了该term的词模模式的数量和词模模式集的总数量来比较的。出现的次数越多,权重越小。公式是:
ID F f i = log ( D / D t i )
其中,D是词模模式集的总数量,
Figure GSB00000330799900154
是包含了该term的词模模式的总数。
在匹配词模模式时,当匹配上的模板词的长度越长时,其所贡献的相关度也应该越大,所以,候选词模模式pt与用户查询Q的相关度就变成了
Relativeness ( p t , Q ) = &Sigma; t i &Element; p t TF ( t i , p t ) &times; ID F t i &times; wordlen t i
其中,
Figure GSB00000330799900162
表示模板词或模板词类的长度,在这里采用其字节长度,即一个汉字占用两个字节长度,一个半角英文字符占用一个字节长度等。
除了相关度外,本发明对TF\IDF模型扩展还引入了不相关度这一概念。不相关度定义为:
Irrelativeness ( p t , Q ) = &Sigma; t i &NotElement; p t TF ( t i , p t ) &times; ID F t i &times; wordlen t i
公式的含义是用户查询语句中没有与词模pt相匹配的模板词或模板词类的IDF值的累加,
Figure GSB00000330799900164
含义同上。
则定义一个词模模式与用户查询语句的相对匹配强度U(pt,Q)为(简称匹配强度):
U(pt,Q)=Relativeness(pt,Q)/(Irrelativeness(pt,Q)+1)
从候选词模模式集中选取U(pt,Q)值最大的词模模式,即取词模与查询语句的相关度与不相关度的比值最大者作为最优词模,分母加一是除零因子。
根据上述公式计算查询语句1的两个候选词模模式,就可以求得各自的分值:
对于词模模式P1:
Figure GSB00000330799900165
Irrelativeness(p1,Q)=TF(怎么疑问词类,p1)×IDF怎么疑问词类×4+TF(取消词类,p1)×IDF取消词类×4=36.31
U(p1,Q)=Relativeness(p1,Q)/(Irrelativeness(p1,Q)+1)=1.04
对于词模模式P2:
Figure GSB00000330799900172
Irrelativeness(p2,Q)=0
U(p2,Q)=Relativeness(p2,Q)/(Irrelativeness(p2,Q)+1)=74.93
根据上述的计算分值可以选择使得U值最大的P2作为查询语句1的最优匹配的词模模式,然后依据词模模式与服务类的映射关系,可获取服务类“彩铃下载”类及相应的移动服务及相应的移动服务业务属性“取消彩铃功能”。
在上述的词模模式匹配过程中实现了对查询语句1的导航,对于无法用词模模式进行匹配的查询语句3还要进行后续的匹配操作。在下一个匹配操作中,采用移动服务分类本体中的描述性信息或业务性信息进行匹配。从前述的两个移动服务分类本体的例子中可以看出,描述性信息或业务性信息中都是一些与移动服务相关的词语,这些词语是对现有市场中的各类移动服务进行高度抽象和归纳后得到的。在匹配过程中,不存在语义文法的支撑,而是直接对用户查询语句进行粗粒度的自然语言匹配。以查询语句3为例,在查询语句3的分词结果中有“哪里”、“下载”等词语,因此,如图3所示,可以在各个移动服务分类本体的业务性信息或描述性信息中查找是否有这样的词语,如果存在这样的词语,就提取出这些词语所在的移动服务分类本体。所提取的移动服务分类本体被称为候选移动服务分类,候选移动服务分类在一个列表中表示。由于对于一个查询语句而言,它所希望得到的移动服务分类应该是唯一的,因此,如果在候选移动服务分类列表中的候选移动服务分类只有一个,则可以直接将该候选移动服务分类中的移动服务返回给用户。但如果列表中的候选移动服务分类多于一个,则需要对候选移动服务分类进行选择,选择对当前查询语句最为合适的一个候选移动服务分类。这一选择过程可以通过模糊理解和融合过程实现。
在前面对查询语句的分词结果的说明中已经提到,在查询语句3的分词结果中存在分词操作无法识别的字符串“周杰轮”,这一字符串也被称为未登录串。未登录串的产生通常是由于用户的误写或用户所写词过于冷僻造成的。由于在前述的匹配过程中都没有用到未登录串中的信息,因此,在采用描述性信息和业务性信息无法得到唯一的候选移动服务分类时,可以考虑利用未登录串中的信息实现对候选移动服务分类的进一步选择。具体的说,如图4所示,这一进一步选择的过程首先要将未登录串与候选模式串进行模糊匹配,将模糊匹配成功的候选模式串作为模糊理解的结果,然后将模糊理解得到的结果重新在各个移动服务分类本体的描述性信息或业务性信息中进行匹配查找,得到一个新的候选移动服务分类列表,将新得到的候选移动服务分类列表与原来的候选移动服务分类列表做以交操作为主的融合操作,从而得到一个唯一的候选移动服务分类,进而向用户返回对应的移动服务。
要完成上述过程首先要实现模糊匹配,而要实现模糊匹配过程就要先解决如何获取候选模式串。在图5中,对候选模式串的产生过程进行了说明。要获取一个查询语句中未登录串的候选模式串,需要采用字索引字典,所述的字索引字典是本发明中所提供的一种根据字查找带有该字的词语的字典,在该字典中,对于一个字符,按照类别给出了包含该字符的所能找到的相关词语。因此,对于如“周杰轮”这样的未登录串,就可以通过字索引字典得到对应于每一个字符的候选词条。如,对于“周”字可以通过字索引字典找到若干候选词条,对于“杰”字也可以找到若干候选词条,对于“轮”字同样能找到若干候选词条。在查找过程中很容易知道,字索引字典中包含某一个字的相关词条有许多个,将这些词条都作为候选词条很容易造成数据冗余,效率不高的问题。因此,在查找候选词条前,可以根据未登录串所在查询语句中的已有分词结果设定相关词类,然后在查找候选词条时,只要将字索引字典中相关词类下的词条作为候选词条即可。例如,在查询语句3的分词结果中,已知“菊花台”是一个“音乐名”,而在前述音乐搜索类的本体中,“音乐名”与“歌手名”、“专辑名”是相关的,因此,“歌手名”、“专辑名”就是相关词类。所以在查找未登录串“周杰轮”的候选词条时,只要在字索引字典中的“歌手名”、“专辑名”等相关类中进行查找即可。在实际应用中,也可能存在未登录串所在查询语句的分词结果为空的情况,此时,则只能将字索引字典中与相关字符相关的所有词条都作为候选词条。
在得到未登录串的各个字符的候选词条后,就可以从众多的候选词条中找出可能性较大的词条作为未登录串的候选模式串。在一个实施例中,这一个过程可以采用打分机制实现。例如,在“周”字的候选词条中可能有“周杰伦”、“周润发”、“周杰”等,为每一个词条加上一分,而在“杰”字的候选词条中可能有“周杰伦”、“周杰”、“王杰”等,为每一个词条也加上一分,在“轮”字的候选词条中可能有各种与该字相关的候选词条,如“轮胎”、“三轮车”等,也为这些词条加上一分。最后可以设定分数在大于或等于2的词条作为候选模式串,因此,上面例子中最后得到的候选模式串包括“周杰伦”、“周杰”。
在得到候选模式串后,下一步就是要将候选模式串与未登录串做模糊匹配,从而识别出用户查询语句中可能存在的错写、漏写、多写等错误,并返回纠错结果。在图6中,对模糊匹配的过程进行了详细说明。在模糊匹配过程中,首先比较候选模式串与未登录串之间的长度,如果两者的相差字符个数超过一定数量,就认为两者不相匹配,只有两者的字符串长度一致或只有较小差异时,才进入下一步的比较。此处所涉及的一定数量应该是一个较小的值,在一个实施例中,可确定为2。比较完字符串长度后,求候选模式串与未登录串之间的极大公共子串,并按照极大公共子串在候选模式串中出现的次序依次标出极大公共子串在未登录串中的位置值。例如,对于字符串“abcde”和“gabkde”,它们的极大公共子串为“ab”和“de”,“ab”在“abcde”“gabkde”中的位置值分别为1和2,“de”在“abcde”“gabkde”中的位置值分别为4和5。对于不存在极大公共子串的候选模式串与未登录串,就认为它们不能匹配,而对于存在极大公共子串的候选模式串与未登录串,则还要根据位置值比较极大公共子串在候选模式串以及未登录串中的相对位置是否一致,如果不一致,也认为候选模式串与未登录串不匹配。例如,“周杰”与“杰周”虽有公共字串,但次序不一致,也不能匹配。对于存在极大公共子串且极大公共子串在候选模式串以及未登录串中的相对位置也一致的情况,则还要根据极大公共子串的数量分情况讨论。
如果极大公共子串有两个或两个以上,则要判断未登录串与候选模式串相比是否有多写或简写情况。以多写为例,假设极大公共子串在候选模式串中相邻,而在未登录串中则间隔一定的字符,则认为未登录串存在多写情况,如“南大”与“南京大学”,此时可以判断所有极大公共子串的长度之和占整个未登录串的百分比是否大于某一个阈值,如果大于就认为候选模式串就是未登录串模糊理解的结果,如果小于就认为不能匹配。对于简写的情况,也可以用与多写情况类似的操作实现。上述操作中所涉及的阈值可以根据情况由用户设定,在一个实施例中,该阈值可以设定为0.8。
如果极大公共子串只有一个,则可以将候选模式串中除公共子串之外的部分,进行音近/音似匹配,如果匹配成功,就认为候选模式串就是未登录串模糊理解的结果。前述例子中的“周杰轮”就可以通过音近/音似匹配操作将其模糊理解为“周杰伦”,从而实现对用户查询语句的自动纠错。
为了方便理解,在此对上述操作中所涉及的音近/音似匹配方法进行说明:
用(ic,v)来表示汉字,其中ic和v分别表示组成该汉字的声母和韵母(有些汉字没有声母,则对应ic=空)。给定任意两个汉字C1=(ic1,v1)和C2=(ic2,v2),将它们的发音相似度PSIM(C1,C2)定义为:
(a)、1,如果ic1=ic2且v1=v2
(b)、CSIM([(ic1,v1)],[(ic2,v2)]),如果ic1≠ic2或v1≠v2(CSIM是预先定义的部分类间的发音相似度函数,如CSIM([(b,ai)],[(b,ei)])=0.8,CSIM([(ch,i)],[(c,i)])=0.92等);
(c)、两个汉语词组Wi=C1C2...Cn和W2=D1D2...Dn之间的发音相似度为:PSIM(W1,W2)=∑PSIM(Ci,Di)/n。
在对用户查询进行辨音分析时,由于错误经常很离谱,与正确的句子间的相似度不够高,所以我们将相似字及相似词的阈值放得很低,这样一个句子就会出现成千上万种相似结果,给辨音带来了很大的工作量。为了实现快速辨音,需要按照一定的规则来产生这些相似结果,使正确的结果最早出现。词间优先级的比较分为三种情况:精确词和精确词的比较,相似词和相似词的比较,精确词和相似词的比较,我们针对这三种情况分别总结了相应的优先规则:第一,如果两个词都是精确词(词在原文本对应位置出现),则长度优先;第二,如果两个词都为相似词(词之间的相似度大于某阈值,而且词中的字都对应相似),则同音字数多者优先;若两词同音字数相同,则相似度优先;第三,如果两个词一个为精确词,另一个为相似词,则相似词优于精确词当且仅当相似词字数>=精确词字数*2,且相似词中的同音字数>=精确词字数。关于音近/音似匹配计算的详细说明和算法过程可以参考专利号为ZL02160272.7的中国专利“语音查询中的辨音方法”。
在得到未登录串的模糊理解结果后,还要将该结果在各个移动服务分类本体的描述性信息或业务性信息中进行匹配查找,从而得到新的候选移动服务分类列表,然后将新得到的候选移动服务分类列表与原来的候选移动服务分类列表做以交操作为主的融合操作。在图7中,对该融合操作的实现过程进行了详细说明。在这一融合过程中,对由精确分词结果得到的候选移动服务分类列表与由模糊理解结果所得到的候选移动服务分类列表之间做交操作,如果求交后存在唯一的公共移动服务分类,则将该移动服务分类中的移动服务返回给用户;如果不存在公共的移动服务分类,则对精确分词结果得到的候选移动服务分类列表做扩展操作,得到扩展后的候选移动服务分类列表,然后将该扩展后的列表与由模糊理解结果所得到的候选移动服务分类列表之间做交操作,在交操作结果中若存在唯一的公共移动服务分类,则将移动服务返回给用户;如果还是不存在公共移动服务分类,则对由模糊理解结果所得到的候选移动服务分类列表作扩展操作,然后将该扩展列表与精确分词结果得到的候选移动服务分类列表做交操作,将交操作得到的公共移动服务分类中的移动服务返回给用户;如果仍然没有公共移动服务分类,则将前述两个扩展列表做交操作,将所得到的公共移动服务分类中的移动服务返回给用户;如果此时还是没有公共移动服务分类,则认为导航失败。上述操作中,所涉及的扩展操作是指将所在候选移动服务分类的子类也作为候选移动服务分类加入到相应的列表中。
通过前述的匹配查找、模糊理解、融合操作等过程实现了采用移动服务分类本体中的描述性信息或业务性信息进行匹配的过程,一般而言,用户的查询语句经过前述的基于元数据的文法匹配、基于词模模式的匹配、基于描述性信息或业务性信息的匹配后大多可以成功实现服务导航,得到具体的服务信息。但也存在仍然无法得到服务信息的情况,此时,还可以根据各个服务分类本体中的标志性词条进行匹配查找,具体的匹配查找过程与前述根据移动服务分类本体中的描述性信息或业务性信息进行匹配查找的过程相类似,因此不再重复说明。
通过上述的基于词模模式的匹配、基于描述性信息或业务性信息的匹配以及基于标志性词条的匹配后,可以实现对前述的第二种智能导航的实现,即当用户不知道具体服务的名称时,将相应的查询语句导航到某一个具体的服务上。
以上是对本发明的方法以及方法中具体实现细节的说明,为了说明本发明的实际效果,本发明采取人工评测的方法对移动服务智能导航系统进行检测。人工评测由多名来自不同地域、领域的用户,由用户事先构造出询问的问题序列及对应的期望反馈的服务序列,将问题序列输入到服务导航系统中,经过系统解析,得出实际的系统反馈序列结果,通过比较期望反馈的服务序列与实际的系统反馈序列是否一致,来衡量系统准确度。表1中是该实验的结果。
从中可以知道,实验中的错误主要是由于描述本体类的信息不全(占所有错误的70%)和汉语词歧义(占所有错误的30%)造成的。通过实验可以得出如下结论:本发明对移动服务的导航具有较好的识别效果,平均准确率达97.9%以上,适用范围广。
表1
Figure GSB00000330799900221
以上实施例是将基于元数据的文法匹配、基于词模模式的匹配、基于描述性信息或业务性信息的匹配以及基于标志性词条的匹配等多种匹配方式相结合所实现的服务导航方法,在实际应用中也可以采用其中的一种或几种匹配方式来实现服务的智能导航,虽然在最终效果上与本实施例的智能导航方法相比有所不足,但也可以实现对常用查询语句的智能导航功能。
本发明在前述的智能导航方法的基础上,还包括与所述智能导航方法相对应的智能导航系统。该智能导航系统包括基于元数据的文法匹配模块、词模模式匹配模块、描述性信息或业务性信息匹配模块、模糊匹配模块以及融合操作模块;其中,
所述的基于元数据的文法匹配模块对用户以自然语言方式所提出查询语句的分词结果进行基于元数据的文法匹配,将与所述分词结果成功匹配的服务返回给用户,对于匹配未成功的分词结果转发给词模模式匹配模块。
所述的词模模式匹配模块根据所述的分词结果找出相匹配的词模模式,然后按照服务分类本体中的词模模式与所述服务分类本体间的映射关系,得到所述相匹配的词模模式所在的服务分类,返回所述服务分类中的服务给用户;对匹配未成功的分词结果转发给描述性信息或业务性信息匹配模块。
所述的描述性信息或业务性信息匹配模块将所述的分词结果与各个服务分类本体中的描述性信息或业务性信息进行匹配查找,对所得到的匹配查找结果按照所述描述性信息或业务性信息与所在服务分类本体间的映射关系,得到包含候选服务分类的列表,将该列表称为第一候选服务分类列表,然后将所述的第一候选服务分类列表转发给模糊理解模块以及融合操作模块。
所述的模糊理解模块对于所述的第一候选服务分类列表,若所述列表中只有一个候选服务分类,则从该唯一的候选服务分类中获取服务并返回给用户,若所述列表中的候选服务分类大于或等于两个,则对候选服务分类列表所对应查询语句中的未登录串进行模糊理解,得到又一个候选服务分类列表,将该列表称为第二候选服务分类列表,然后将所述的第二候选服务分类列表转发给融合操作模块。
所述的融合操作模块根据所述的第一候选服务分类列表与所述的第二候选服务分类列表作融合操作,得到公共的候选服务分类,若所述公共的候选服务分类唯一,则返回该候选服务分类中的服务给用户,若所述公共的候选服务分类不存在或多于一个,则对所述查询语句的导航失败。
本发明的智能导航系统还包括标志性词条匹配模块,所述的标志性词条匹配模块将融合操作模块所输出的导航失败的查询语句中的分词结果再与各个服务分类本体中的标志性词条进行匹配查找,若存在匹配结果,则将所述匹配结果所在服务分类中的服务返回给用户,否则,向用户返回导航失败信息。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (18)

1.一种服务智能导航方法,用于在元数据或服务分类本体中查找与用户查询语句相关的服务;所述元数据包括与所述服务相关的信息,以及所述信息与语义文法间的对应关系;所述服务分类本体包括词模模式;所述词模模式用于描述与所述服务分类本体相关的服务中所涉及的句子的模式;所述方法包括:
步骤1)、对用户以自然语言方式所提出查询语句的分词结果进行基于元数据的文法匹配,对于成功匹配所得到的服务信息返回给用户,结束对所述查询语句的导航,对于匹配未成功的分词结果执行下一步;
步骤2)、根据所述分词结果中的模板词或模板词类,找出与所述分词结果最为匹配的词模模式,然后得到所述词模模式所在的服务分类本体,返回所述服务分类本体中的服务给用户,结束对所述查询语句的导航操作;对匹配未成功的分词结果,所述分词结果所在的查询语句导航失败。
2.根据权利要求1所述的服务智能导航方法,其特征在于,所述服务分类本体还包括描述性信息或业务性信息,所述的描述性信息包括用于自然语言理解的通用信息,所述的业务性信息用于表示具体业务;所述方法还包括:
步骤3)、将所述步骤2)中匹配未成功的分词结果与各个服务分类本体中的描述性信息或业务性信息进行匹配查找,对所得到的匹配查找结果按照所述描述性信息或业务性信息与所在服务分类本体间的映射关系,得到包含候选服务分类的列表,将该列表称为第一候选服务分类列表;
步骤4)、对于所述的第一候选服务分类列表,若所述列表中只有一个候选服务分类,则从该唯一的候选服务分类中获取服务并返回给用户,若所述列表中的候选服务分类大于或等于两个,则对候选服务分类列表所对应查询语句中的未登录串进行模糊理解,得到又一个候选服务分类列表,将该又一个候选服务分类列表称为第二候选服务分类列表;
步骤5)、根据所述的第一候选服务分类列表与所述的第二候选服务分类列表作融合操作,得到公共的候选服务分类,若所述公共的候选服务分类唯一,则返回该公共的候选服务分类中的服务给用户,若所述公共的候选服务分类不存在或多于一个,则对所述查询语句的导航失败。
3.根据权利要求1或2所述的服务智能导航方法,其特征在于,所述的服务分类本体还包括用于唯一地描述所述服务分类本体的标志性词条;所述方法还包括:
对导航失败的查询语句中的分词结果与各个服务分类本体中的所述标志性词条进行匹配查找,若存在匹配结果,则将所述匹配结果所在服务分类中的服务返回给用户,否则,向用户返回导航失败信息。
4.根据权利要求3所述的服务智能导航方法,其特征在于,在所述的步骤1)中,所述查询语句的分词结果与所述元数据中的语义文法进行比较,若所述分词结果与所述语义文法相对应,则将所述元数据中与所述语义文法存在对应关系的与所述服务相关的信息作为成功匹配所得到的服务信息返回给用户。
5.根据权利要求3所述的服务智能导航方法,其特征在于,所述的步骤2)包括:
步骤2-1)、对所述分词结果中的模板词或模板词类,查找包含有所述模板词或模板词类的所有词模模式;
步骤2-2)、从步骤2-1)所得到的所有词模模式中选择最优词模模式作为相匹配的词模模式;
步骤2-3)、将所述最优词模模式所在服务分类中的服务返回给用户。
6.根据权利要求5所述的服务智能导航方法,其特征在于,在所述的步骤2-2)中,采用TF\IDF扩展模型来确定所述词模模式与所述查询语句间的相对匹配强度,选择相对匹配强度最强的词模模式作为最优词模模式;其中,TF表示一个词模模式中的模板词或模板词类与某个词模模式的相关度;IDF表示一个模板词或模板词类在词模模式的主题的权重大小。
7.根据权利要求6所述的服务智能导航方法,其特征在于,所述的TF\IDF扩展模型计算所述词模模式与所述查询语句间的相关度和不相关度,然后求所述的相关度与所述的不相关度的比值,得到所述词模模式与所述查询语句间的相对匹配强度;其中,
所述的相关度用Relativeness(Pt,Q)表示,其中的pt表示所述的词模模式,Q表示所述用户查询语句;
Relativeness ( p t , Q ) = &Sigma; t i &Element; p t TF ( t i , p t ) &times; IDF t i &times; wordlen t i
Figure FSB00000373961100022
表示模板词或模板词类的长度;
TF ( t i , d t ) = count ( t i ) / &Sigma; t j &Element; d t count ( t j )
其中,ti表示一个模板词或模板词类,dt表示某个词模模式,count(ti)是第ti个模板词或模板词类在词模模式dt中的计数;
IDF t i = log ( D / D t i )
其中,D是词模模式集的总数量,
Figure FSB00000373961100033
是包含了该模板词或模板词类的词模模式的总数;
所述的不相关度用Irrelativeness(Pt,Q)表示,它表示用户查询语句中没有与词模pt相匹配的模板词或模板词类的IDF值的累加
Irrelativeness ( p t , Q ) = &Sigma; t i &NotElement; p t TF ( t i , p t ) &times; IDF t i &times; wordlen t i .
8.根据权利要求2所述的服务智能导航方法,其特征在于,在所述的步骤4)中,所述的模糊理解包括:
步骤4-1)、将所述查询语句与所述查询语句的分词结果进行比较,得到所述查询语句中的未登录串;
步骤4-2)、对所述未登录串中的各个字符分别查找包含各单个字符的候选词条,然后从所述候选词条中得到所述未登录串的候选模式串;
步骤4-3)、实现所述候选模式串与所述未登录串之间的模糊匹配,将模糊匹配成功的候选模式串作为模糊理解的结果。
9.根据权利要求8所述的服务智能导航方法,其特征在于,所述的步骤4-2)包括:
步骤4-2-1)、判断所述查询语句的分词结果是否为空,若不为空,则根据所述分词结果中的词语在服务分类本体中查找相关词类,然后执行下一步,若为空,则直接根据所述未登录串中的各个字符分别查找包含各单个字符的候选词条,然后执行步骤4-2-3);
步骤4-2-2)、对所述未登录串中的各个字符,在满足相关词类的条件下分别查找包含各个单个字符的候选词条;
步骤4-2-3)、从所述的候选词条中选择可能性较大的候选词条作为未登录串的候选模式串。
10.根据权利要求9所述的服务智能导航方法,其特征在于,在所述的步骤4-2-3)中,采用计分方式选择可能性较大的候选词条,所述候选词条每出现一次,为其计一次分,最后选择满足一定分值的候选词条作为可能性较大的候选词条。
11.根据权利要求8所述的服务智能导航方法,其特征在于,在所述的步骤4-3)中,所述的模糊匹配包括:
步骤4-3-1)、比较所述候选模式串与所述未登录串的长度,若两者相差字符个数超过第一阈值时,返回不能匹配,否则执行下一步;
步骤4-3-2)、求取所述候选模式串与所述未登录串的极大公共子串,然后按照所述极大公共子串在候选模式串中出现的次序依次标出所述极大公共子串在所述未登录串中的位置值;
步骤4-3-3)、判断所述极大公共子串的数目,若所述极大公共子串的数目为0,则执行下一步,若所述极大公共子串的数目为1,则执行步骤4-3-5),若所述极大公共子串的数目大于1,则执行步骤4-3-6);
步骤4-3-4)、所述候选模式串与所述未登录串不能匹配,向用户返回不能匹配的标志,结束操作;
步骤4-3-5)、对所述候选模式串中除极大公共子串外的部分进行音近/音似匹配,若匹配成功则将该候选模式串作为模糊匹配的结果,若失败,则向用户返回不能匹配的标志,结束操作;
步骤4-3-6)、判断极大公共子串在候选模式串以及未登录串中的相对位置是否一致,若不一致,则返回不能匹配标志,否则,执行下一步;
步骤4-3-7)、对所述未登录串较所述候选模式串多写或漏写的情况,判断所有极大公共子串的长度之和占所述未登录串的百分比是否大于第二阈值,若大于或等于,则将所述候选模式串作为模糊匹配的结果,若小于则向用户返回不能匹配的标志,结束操作。
12.根据权利要求11所述的服务智能导航方法,其特征在于,在步骤4-3-1)中,所述第一阈值为2。
13.根据权利要求11所述的服务智能导航方法,其特征在于,在步骤4-3-7)中,所述第二阈值为0.8。
14.根据权利要求2所述的服务智能导航方法,其特征在于,所述的步骤5)中包括:
步骤5-1)、对所述的第一候选服务分类列表与所述的第二候选服务分类列表做交操作,所得到的结果若存在唯一的公共服务分类,则将该唯一的公共服务分类中的服务返回给用户,否则,执行下一步;
步骤5-2)、对所述的第一候选服务分类列表进行扩展,将扩展后的第一候选服务分类列表与所述的第二候选服务分类列表做交操作,所得到的结果若存在唯一的公共服务分类,则将该唯一的公共服务分类中的服务返回给用户,否则,执行下一步;
步骤5-3)、对所述的第二候选服务分类列表进行扩展,将扩展后的第二候选服务分类列表与所述的第一候选服务分类列表做交操作,所得到的结果若存在唯一的公共服务分类,则将该唯一的公共服务分类中的服务返回给用户,否则,执行下一步;
步骤5-4)、将扩展后的第一候选服务分类列表与扩展后的第二候选服务分类列表做交操作,所得到的结果若存在唯一的公共服务分类,则将该唯一的公共服务分类中的服务返回给用户,否则向用户返回不能匹配的标志,结束操作。
15.根据权利要求14所述的服务智能导航方法,其特征在于,所述的扩展操作包括将所述候选服务分类列表中的候选服务分类的子类也作为候选服务分类加入到列表中。
16.一种服务智能导航系统,其特征在于,用于在元数据或服务分类本体中查找与用户查询语句相关的服务;所述元数据包括与所述服务相关的信息,以及所述信息与语义文法间的对应关系;所述服务分类本体包括词模模式;所述词模模式用于描述与所述服务分类本体相关的服务中所涉及的句子的模式;所述系统包括基于元数据的文法匹配模块、词模模式匹配模块;其中,
所述的基于元数据的文法匹配模块对用户以自然语言方式所提出查询语句的分词结果进行基于元数据的文法匹配,对于成功匹配所得到的服务信息返回给用户,结束对所述查询语句的导航,对于匹配未成功的分词结果转发给词模模式匹配模块;
所述的词模模式匹配模块根据所述分词结果中的模板词或模板词类,找出与所述分词结果最为匹配的词模模式,然后得到所述词模模式所在的服务分类本体,返回所述服务分类本体中的服务给用户,结束对所述查询语句的导航操作;对匹配未成功的分词结果,所述分词结果所在的查询语句导航失败。
17.根据权利要求16所述的服务智能导航系统,其特征在于,还包括描述性信息或业务性信息匹配模块、模糊匹配模块以及融合操作模块;其中,
所述的描述性信息或业务性信息匹配模块将所述词模模式匹配模块中匹配未成功的分词结果与各个服务分类本体中的描述性信息或业务性信息进行匹配查找,对所得到的匹配查找结果按照所述描述性信息或业务性信息与所在服务分类本体间的映射关系,得到包含候选服务分类的列表,将该列表称为第一候选服务分类列表,然后将所述的第一候选服务分类列表转发给模糊理解模块以及融合操作模块;
所述的模糊匹配模块对于所述的第一候选服务分类列表进行判断,若所述列表中只有一个候选服务分类,则从该唯一的候选服务分类中获取服务并返回给用户,若所述列表中的候选服务分类大于或等于两个,则对候选服务分类列表所对应查询语句中的未登录串进行模糊理解,得到又一个候选服务分类列表,将该又一个候选服务分类列表称为第二候选服务分类列表;
所述的融合操作模块根据所述的第一候选服务分类列表与所述的第二候选服务分类列表作融合操作,得到公共的候选服务分类,若所述公共的候选服务分类唯一,则返回该候选服务分类中的服务给用户,若所述公共的候选服务分类不存在或多于一个,则对所述查询语句的导航失败。
18.根据权利要求16或17所述的服务智能导航系统,其特征在于,还包括标志性词条匹配模块;
所述的标志性词条匹配模块对导航失败的查询语句中的分词结果与各个服务分类本体中的所述标志性词条进行匹配查找,若存在匹配结果,则将所述匹配结果所在服务分类中的服务返回给用户,否则,向用户返回导航失败信息。
CN2008101172442A 2008-07-25 2008-07-25 一种服务智能导航方法和系统 Active CN101499277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101172442A CN101499277B (zh) 2008-07-25 2008-07-25 一种服务智能导航方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101172442A CN101499277B (zh) 2008-07-25 2008-07-25 一种服务智能导航方法和系统

Publications (2)

Publication Number Publication Date
CN101499277A CN101499277A (zh) 2009-08-05
CN101499277B true CN101499277B (zh) 2011-05-04

Family

ID=40946323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101172442A Active CN101499277B (zh) 2008-07-25 2008-07-25 一种服务智能导航方法和系统

Country Status (1)

Country Link
CN (1) CN101499277B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US10049667B2 (en) 2011-03-31 2018-08-14 Microsoft Technology Licensing, Llc Location-based conversational understanding
US10061843B2 (en) 2011-05-12 2018-08-28 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10296587B2 (en) 2011-03-31 2019-05-21 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147792B (zh) * 2010-02-09 2012-11-21 中国科学院计算技术研究所 一种客户化知识智能系统
CN102694895B (zh) * 2011-03-23 2015-10-28 中兴通讯股份有限公司 来电原因的判定方法及装置
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
JP6087899B2 (ja) * 2011-03-31 2017-03-01 マイクロソフト テクノロジー ライセンシング,エルエルシー 会話ダイアログ学習および会話ダイアログ訂正
CN102567497B (zh) * 2011-12-23 2013-07-24 浙江大学 一种最匹配模糊轨迹问题的查询方法
US9269351B2 (en) * 2012-07-03 2016-02-23 Mitsubishi Electric Corporation Voice recognition device
CN103873707B (zh) * 2012-12-10 2017-07-18 中国电信股份有限公司 来电原因记录方法及呼叫中心座席系统
CN104216906A (zh) * 2013-05-31 2014-12-17 大陆汽车投资(上海)有限公司 语音搜索方法和设备
KR102197143B1 (ko) * 2013-11-26 2020-12-31 현대모비스 주식회사 음성 인식을 이용한 명령 수행 시스템 및 그 동작 방법
CN106294481B (zh) * 2015-06-05 2019-10-22 阿里巴巴集团控股有限公司 一种基于图谱的导航方法及装置
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN106878275B (zh) * 2017-01-03 2020-05-19 阿里巴巴集团控股有限公司 身份验证方法及装置和服务器
CN107798126B (zh) * 2017-11-13 2021-11-02 北京邮电大学 基于知识库的问答处理方法
CN111274382A (zh) * 2018-11-20 2020-06-12 北京京东尚科信息技术有限公司 文本分类方法、装置、设备及存储介质
CN111309876A (zh) * 2018-12-12 2020-06-19 北京嘀嘀无限科技发展有限公司 一种服务请求的处理方法、装置、电子设备及存储介质
CN110046648B (zh) * 2019-03-13 2023-04-21 创新先进技术有限公司 基于至少一个业务分类模型进行业务分类的方法及装置
CN112000767A (zh) * 2020-07-31 2020-11-27 深思考人工智能科技(上海)有限公司 一种基于文本的信息抽取方法和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466367A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 通用的移动人知交互系统及方法
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN101136028A (zh) * 2006-07-10 2008-03-05 日电(中国)有限公司 基于自然语言的位置查询系统以及基于关键词的位置查询系统
CN101196900A (zh) * 2007-12-27 2008-06-11 中国移动通信集团湖北有限公司 一种基于元数据的信息检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1466367A (zh) * 2002-07-03 2004-01-07 中国科学院计算技术研究所 通用的移动人知交互系统及方法
CN1514387A (zh) * 2002-12-31 2004-07-21 中国科学院计算技术研究所 语音查询中的辨音方法
CN101136028A (zh) * 2006-07-10 2008-03-05 日电(中国)有限公司 基于自然语言的位置查询系统以及基于关键词的位置查询系统
CN101196900A (zh) * 2007-12-27 2008-06-11 中国移动通信集团湖北有限公司 一种基于元数据的信息检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宗裕朋.基于本体的中文智能答疑系统研究与实现.《基于本体的中文智能答疑系统研究与实现》.2008,6-21. *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US10049667B2 (en) 2011-03-31 2018-08-14 Microsoft Technology Licensing, Llc Location-based conversational understanding
US10296587B2 (en) 2011-03-31 2019-05-21 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US10061843B2 (en) 2011-05-12 2018-08-28 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries

Also Published As

Publication number Publication date
CN101499277A (zh) 2009-08-05

Similar Documents

Publication Publication Date Title
CN101499277B (zh) 一种服务智能导航方法和系统
Coucke et al. Snips voice platform: an embedded spoken language understanding system for private-by-design voice interfaces
CN111191016B (zh) 一种多轮对话处理方法、装置及计算设备
Tur et al. Spoken language understanding: Systems for extracting semantic information from speech
CN109196495B (zh) 用于细粒度自然语言理解的系统和方法
CN100489841C (zh) 用于开发自然语言理解应用的方法和集成开发工具
US11016968B1 (en) Mutation architecture for contextual data aggregator
US7840405B1 (en) Generation of speech recognition grammars for conducting searches
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
US9286892B2 (en) Language modeling in speech recognition
CN111695345B (zh) 文本中实体识别方法、以及装置
US9529898B2 (en) Clustering classes in language modeling
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
US9684741B2 (en) Presenting search results according to query domains
Heck et al. Leveraging knowledge graphs for web-scale unsupervised semantic parsing
CN102549652B (zh) 信息检索装置
US20140163959A1 (en) Multi-Domain Natural Language Processing Architecture
CN108874774B (zh) 一种基于意图理解的服务调用方法和系统
US20070106497A1 (en) Natural language interface for driving adaptive scenarios
CN100373382C (zh) 基于内容的数字音乐检索旋律特征数据库及生成系统
Tur et al. Exploiting the semantic web for unsupervised natural language semantic parsing
CN101681365A (zh) 用于分布式语音搜索的方法和装置
CN111462748B (zh) 语音识别处理方法、装置、电子设备及存储介质
CN107799116A (zh) 多轮交互并行语义理解方法和装置
Dinarelli et al. Discriminative reranking for spoken language understanding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20090805

Assignee: Knowology Intelligent Technology Co., Ltd.

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2013110000009

Denomination of invention: Service intelligent navigation method and system

Granted publication date: 20110504

License type: Exclusive License

Record date: 20130304

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model