信息的获取方法和装置
技术领域
本发明涉及通信技术领域,特别涉及一种信息的获取方法和装置。
背景技术
问答系统是互联网用户获取知识的一种常见工具,其用于帮助解答用户提出的新问题或提供相关知识供用户浏览,例如百度知道、搜搜问问等。为了满足用户的信息需求,问答系统会通过相关问题检索系统向用户推荐一些相关问题。例如,用户在提问时,相关问题检索系统会显示与其输入问题相关的问题和答案;用户在浏览问题时,相关问题检索系统会推送与当前浏览问题相关的其他问题或答案。如何提升用户的满意度,使用户通过问答系统更便利的获取其关注的问题及答案,成为目前问答系统的主要发展方向。
现有的问答系统,通过检索与用户问题最接近的几个相关问题并依次展示给用户。其技术实现为:首先,获取用户点击或输入的问题Q;然后,利用信息检索或自然语言处理技术,从以往收集或记录的问题数据库中检索出与问题Q相关的问题集R(Q);然后,对R(Q)中相关问题按照与Q的语义相关度进行排序;最后,选取R(Q)中排名最高的N条相关问题进行展示。其中,N为相关问题在页面上显示条数的最大值。
现有的问答系统,为用户提供与用户提出的问题在语义上相关的信息。而用户往往具有不同的信息需求,例如,当用户希望获取与其输入的问题相关的多方面内容时,通过现有的问答系统给出的相关问题则都是与用户输入的问题在语义上相同的问题,即使数据库中存在与该用户输入问题相关其他方面的信息,也可能由于该其他方面的信息与用于输入的问题在语义上不同而无法被现有的问答系统检索到,从而无法反馈给用户,用户只有通过多次输入不同语义的为题,来获取其关注的信息。
发明内容
为了简化搜索操作,提高用户体验,本发明实施例提供了一种信息的获取方法,所述方法包括:
获取用户输入的关键字;
根据预设的关键字匹配条件,获取与所述关键字内容匹配的信息集;
将所述信息集中的信息区分为所述关键字的同义信息和近义信息,所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息;
发送所述同义信息和所述近义信息至所述用户。
所述将所述信息集中的信息区分为所述关键字的同义信息和近义信息具体包括:
计算所述信息集中的信息与所述关键字的语义相似度;
判断所述语义相似度是否大于或等于预设相似度阈值,如果所述语义相似度大于或等于预设相似度阈值大于,则所述信息为同义信息;如果所述语义相似度小于预设相似度阈值,则所述信息为近义信息。
所述将所述信息集中的信息区分为所述关键字的同义信息和近义信息具体包括:
获取所述关键字的信息特征值;
查询本地保存的信息与信息特征值的对应关系,获取所述信息集中各信息的信息特征值;
获取所述信息集中信息特征值大于所述关键字的信息特征值的信息,得到第一临时信息集,将所述第一临时信息集中的信息作为同义信息;
获取所述信息集中信息特征值小于所述关键字的信息特征值的信息,得到第二临时信息集,将所述第二临时信息集中的信息作为近义信息。
所述获取所述关键字的信息特征值之前,所述方法还包括:
根据预设的信息特征提取条件,获取本地保存的信息的信息特征;
根据预设的信息特征的权值和所述本地保存的信息的信息特征,生成所述本地保存的信息的信息特征值;
生成所述本地保存的信息与其信息特征值的对应关系,并将所述对应关系保存在本地。
所述将所述信息集中的信息区分为所述关键字的同义信息和近义信息具体包括:
根据预设的语义转换标准,计算所述信息集中的信息转换成所述关键字的概率;
判断所述概率是否大于或等于预设的转换概率,如果所述概率大于或等于预设的转换概率,则所述信息为同义信息;如果所述概率小于预设的转换概率,则所述信息为近义信息。
所述发送所述同义信息和所述近义信息至所述用户具体包括:
对所述同义信息按其与所述关键字的匹配度由高到低进行排序;
将排序后的同义信息,按顺序依次发送给用户;
对所述近义信息按其与所述关键字的匹配度由高到低进行排序;
将排序后的近义信息,按顺序依次发送给用户。
本发明实施例还提供了一种信息的获取装置,所述装置包括:
关键字获取模块,用于获取用户输入的关键字;
信息集获取模块,用于根据预设的关键字匹配条件,获取与所述关键字内容匹配的信息集;
信息区分模块,用于将所述信息集中的信息区分为所述关键字的同义信息和近义信息,所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息;
信息发送模块,用于发送所述同义信息和所述近义信息至所述用户。
所述信息区分模块具体包括:
语义相似度计算单元,用于计算所述信息集中的信息与所述关键字的语义相似度;
语义相似度确定模块,用于判断所述语义相似度是否大于或等于预设相似度阈值,如果所述语义相似度大于或等于预设相似度阈值大于,则所述信息为同义信息;如果所述语义相似度小于预设相似度阈值,则所述信息为近义信息。
所述信息区分模块具体包括:
第一息特征值获取单元,用于获取所述关键字的信息特征值;
第二息特征值获取单元,用于查询本地保存的信息与信息特征值的对应关系,获取所述信息集中各信息的信息特征值;
第一临时信息集获取单元,用于获取所述信息集中信息特征值大于所述关键字的信息特征值的信息,得到第一临时信息集,将所述第一临时信息集中的信息作为同义信息;
第二临时信息集获取单元,用于获取所述信息集中信息特征值小于所述关键字的信息特征值的信息,得到第二临时信息集,将所述第二临时信息集中的信息作为近义信息。
所述装置还包括:
信息特征获取模块,用于根据预设的信息特征提取条件,获取本地保存的信息的信息特征;
信息特征值获取模块,用于根据预设的信息特征的权值和所述本地保存的信息的信息特征,生成所述本地保存的信息的信息特征值;
对应关系生成模块,用于生成所述本地保存的信息与其信息特征值的对应关系,并将所述对应关系保存在本地。
所述信息区分模块具体包括:
转换概率计算单元,用于根据预设的语义转换标准,计算所述信息集中的信息转换成所述关键字的概率;
同义信息确定单元,用于判断所述概率是否大于或等于预设的转换概率,如果所述概率大于或等于预设的转换概率,则所述信息为同义信息;如果所述概率小于预设的转换概率,则所述信息为近义信息。
所述信息发送模块具体包括:
第一匹配度排序单元,用于对所述同义信息按其与所述关键字的匹配度由高到低进行排序;
同义信息发送单元,用于将排序后的同义信息,按顺序依次发送给用户;
第二匹配度排序单元,用于对所述近义信息按其与所述关键字的匹配度由高到低进行排序;
近义信息发送单元,用于将排序后的近义信息,按顺序依次发送给用户。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
附图说明
图1是本发明实施例1提供的一种信息的获取方法流程图;
图2是本发明实施例2提供的一种信息的获取方法流程图;
图3是本发明实施例3提供的一种信息的获取方法流程图;
图4是本发明实施例4提供的一种信息的获取方法流程图;
图5是本发明实施例5提供的一种信息的获取装置结构图;
图6是本发明实施例6提供的一种信息的获取装置结构图;
图7是本发明实施例7提供的一种信息的获取装置结构图;
图8是本发明实施例8提供的一种信息的获取装置结构图;
图9是本发明实施例9提供的一种信息的获取装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
如图1所示,本发明实施例提供了一种信息的获取方法,所述方法包括:
S101:获取用户输入的关键字;
S102:根据预设的关键字匹配条件,获取与所述关键字内容匹配的信息集;
S103:将所述信息集中的信息区分为所述关键字的同义信息和近义信息;
其中,所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息;
S104:发送所述同义信息和所述近义信息至所述用户。
本实施例中,发送所述同义信息和所述近义信息至所述用户,使所述用户获取与所述关键字语义相同的信息和与所述关键字语义相似的信息。
需要说明的是,本发明实施例各步骤的执行主体可以为搜索服务器,也可以为具有个步骤功能的其他执行主体。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例2
如图2所示,本发明实施例提供了一种信息的获取方法,所述方法包括:
S201:获取用户输入的关键字;
其中,用户输入的关键字可以是用户提问输入的问题、用户搜索输入的查询、或用户将要浏览的能反映其信息需求的已有问题。
例如,通过获取用户输入的问题,获取到用户输入的问题qi。
S202:根据预设的关键字匹配条件,获取与所述关键字内容匹配的信息集;
可选的,可通过现有技术进行信息检索,从现有的问答系统以往收集和/或记录的问题信息数据库中检索出所有与用户问题qi语义相关的问题。
例如,通过在数据库中对问题qi进行检索,得到相关问题候选集SQi={sq0,sq1,sq2,·,sqm}。
S203:计算所述信息集中的信息与所述关键字的语义相似度;
例如,计算步骤S203中SQi={sq0,sq1,sq2,·,sqm}中各相关问题与问题qi的语义相似度,为sq0=5,sq1=6,sq2=10,·,sqm=7。
S204:判断所述语义相似度是否大于或等于预设相似度阈值,如果所述语义相似度大于或等于预设相似度阈值大于,则所述信息为同义信息;如果所述语义相似度小于预设相似度阈值,则所述信息为近义信息。
其中,所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息。
例如,预设相似度阈值为6,则获取sq0=5,sq1=6,sq2=10,·,sqm=7相似度值大于或等于6的相关问题,将该相关问题作为与问题qi同义的同义问题,即同义信息;其余信息为近义信息。
S205:发送所述同义信息和所述近义信息至所述用户。
本实施例中,发送所述同义信息和所述近义信息至所述用户,使所述用户获取与所述关键字语义相同的信息和与所述关键字语义相似的信息。
优选的,对所述同义信息按其与所述关键字的匹配度由高到低进行排序将排序后的同义信息,按顺序依次发送给用户;对所述近义信息按其与所述关键字的匹配度由高到低进行排序;将排序后的近义信息,按顺序依次发送给用户。
需要说明的是,本发明实施例各步骤的执行主体可以为搜索服务器,也可以为具有个步骤功能的其他执行主体。
本发明实施例通过判断待选信息与关键字的语义相似度是否满足预设阈值,将满足的作为该关键字的同义信息,不满足的作为近义信息,从而实现将所述信息集中的信息区分,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例3
如图3所示,本发明实施例提供了一种信息的获取方法,所述方法包括:
S301:根据预设的信息特征提取条件,获取本地保存信息的信息特征;
可选的,该信息特征可以为多个,包括本地保存的信息与用户问题Q的各类文本相似度,如,编辑距离、文本向量相似度、概率模型相似度、句法关系相似度等;当用户输入的关键字为问题时,本地保存的问题答案间的相似度、各提问和回答用户间的关系、问题时间、系统记录的问题浏览日志信息等。
S302:根据预设的信息特征的权值和所述本地保存的信息的信息特征,生成所述本地保存的信息的信息特征值;
其中,信息特征的权值是指,在计算信息特征值时,不同的信息特征所占比重不同,根据需求可对权值进行调整。
S303:生成所述本地保存的信息与其信息特征值的对应关系,并将所述对应关系保存在本地。
例如,本地保存的信息与其信息特征值的对应关系可如表一所示:
信息 |
信息特征值 |
信息1 |
4 |
信息2 |
10 |
...... |
...... |
S304:获取用户输入的关键字;
其中,用户输入的关键字可以是用户提问输入的问题、用户搜索输入的查询、或用户将要浏览的能反映其信息需求的已有问题。
例如,通过获取用户输入的问题,获取到用户输入的问题qi。
S305:根据预设的关键字匹配条件,获取与所述关键字内容匹配的信息集;
可选的,可通过现有技术进行信息检索技术,从现有的问答系统以往收集和/或记录的问题信息数据库中检索出所有与用户问题qi语义相关的问题。
例如,通过在数据库中对问题qi进行检索,得到相关问题候选集SQi={sq0,sq1,sq2,·,sqm}。
S306:获取所述关键字的信息特征值;
具体的,根据信息特征提取条件,获取所述关键字的信息特征值。
其中,该信息特征提取条件与S301中的信息特征提取条件相同。
S307:查询本地保存的信息与信息特征值的对应关系,获取所述信息集中各信息的信息特征值;
例如,当本地保存的信息与信息特征值的对应关系如表一所示时,通过查询表一获取所示信息集中各信息的信息特征值。
S308:获取所述信息集中信息特征值大于所述关键字的信息特征值的信息,得到第一临时信息集,将所述第一临时信息集中的信息作为同义信息;
获取所述信息集中信息特征值小于所述关键字的信息特征值的信息,得到第二临时信息集,将所述第二临时信息集中的信息作为近义信息。
其中,所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息;
S309:发送所述同义信息和所述近义信息至所述用户。
本实施例中,发送所述同义信息和所述近义信息至所述用户,使所述用户获取与所述关键字语义相同的信息和与所述关键字语义相似的信息。
优选的,对所述同义信息按其与所述关键字的匹配度由高到低进行排序将排序后的同义信息,按顺序依次发送给用户;对所述近义信息按其与所述关键字的匹配度由高到低进行排序;将排序后的近义信息,按顺序依次发送给用户。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例4
如图4所示,本发明实施例提供了一种信息的获取方法,所述方法包括:
S401:获取用户输入的关键字;
其中,用户输入的关键字可以是用户提问输入的问题、用户搜索输入的查询、或用户将要浏览的能反映其信息需求的已有问题。
例如,通过获取用户输入的问题,获取到用户输入的问题qi。
S402:根据预设的关键字匹配条件,获取与所述关键字内容匹配的信息集;
可选的,可通过现有技术进行信息检索技术,从现有的问答系统以往收集和/或记录的问题信息数据库中检索出所有与用户问题qi语义相关的问题。
例如,通过在数据库中对问题qi进行检索,得到相关问题候选集SQi={sq0,sq1,sq2,·,sqm}。
S403:根据预设的语义转换条件和所述关键字,生成语义转换成标准语义;
S404:根据预设的语义转换标准,计算所述信息集中的信息转换成所述关键字的概率;
判断所述概率是否大于或等于预设的转换概率,如果所述概率大于或等于预设的转换概率,则所述信息为同义信息;如果所述概率小于预设的转换概率,则所述信息为近义信息。
其中,所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息;
S405:发送所述同义信息和所述近义信息至所述用户,使所述用户获取与所述关键字语义相同的信息和与所述关键字语义相似的信息。
优选的,对所述同义信息按其与所述关键字的匹配度由高到低进行排序将排序后的同义信息,按顺序依次发送给用户;对所述近义信息按其与所述关键字的匹配度由高到低进行排序;将排序后的近义信息,按顺序依次发送给用户。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例5
如图5所示,本发明实施例提供了一种信息的获取装置,所述装置包括:关键字获取模块501、信息集获取模块502、信息区分模块503和信息发送模块504,其中:
关键字获取模块501,用于获取用户输入的关键字;
信息集获取模块502,用于根据预设的关键字匹配条件,获取与所述关键字内容匹配的信息集;
信息区分模块503,用于将所述信息集中的信息区分为所述关键字的同义信息和近义信息,所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息;
信息发送模块504,用于发送所述同义信息和所述近义信息至所述用户,使所述用户获取与所述关键字语义相同的信息和与所述关键字语义相似的信息。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例6
如图6所示,本发明实施例提供了一种信息的获取装置,与实施例5相似,所述装置包括:关键字获取模块501、信息集获取模块502、信息区分模块503和信息发送模块504。
进一步,所述信息区分模块503具体包括:
语义相似度计算单元5031,用于计算所述信息集中的信息与所述关键字的语义相似度;
语义相似度确定单元5032,用于判断所述语义相似度是否大于或等于预设相似度阈值,如果所述语义相似度大于或等于预设相似度阈值大于,则所述信息为同义信息;如果所述语义相似度小于预设相似度阈值,则所述信息为近义信息。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例7
如图7所示,本发明实施例提供了一种信息的获取装置,与实施例5相似,所述装置包括:关键字获取模块501、信息集获取模块502、信息区分模块503和信息发送模块504。
进一步,所述信息区分模块503具体包括:
第一息特征值获取单元5033,用于获取所述关键字的信息特征值;
第二息特征值获取单元5034,用于查询本地保存的信息与信息特征值的对应关系,获取所述信息集中各信息的信息特征值;
第一临时信息集获取单元5035,用于获取所述信息集中信息特征值大于所述关键字的信息特征值的信息,得到第一临时信息集,将所述第一临时信息集中的信息作为同义信息;
第二临时信息集获取单元5036,用于获取所述信息集中信息特征值小于所述关键字的信息特征值的信息,得到第二临时信息集,将所述第二临时信息集中的信息作为近义信息。
优选的,所述装置还包括:
信息特征获取模块505,用于根据预设的信息特征提取条件,获取本地保存的信息的信息特征;
信息特征值获取模块506,用于根据预设的信息特征的权值和所述本地保存的信息的信息特征,生成所述本地保存的信息的信息特征值;
对应关系生成模块507,用于生成所述本地保存的信息与其信息特征值的对应关系,并将所述对应关系保存在本地。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例8
如图8所示,本发明实施例提供了一种信息的获取装置,与实施例5相似,包括:关键字获取模块501、信息集获取模块502、信息区分模块503和信息发送模块504。
进一步的,所述信息区分模块503具体包括:
转换概率计算单元5037,用于根据预设的语义转换标准,计算所述信息集中的信息转换成所述关键字的概率;
同义信息确定单元5038,用于判断所述概率是否大于或等于预设的转换概率,如果所述概率大于或等于预设的转换概率,则所述信息为同义信息;如果所述概率小于预设的转换概率,则所述信息为近义信息。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
实施例9
如图9所示,本发明实施例提供了一种信息的获取装置,与实施例5相似,所述装置包括:关键字获取模块501、信息集获取模块502、信息区分模块503和信息发送模块504。
进一步,所述信息发送模块504具体包括:
第一匹配度排序单元5041,用于对所述同义信息按其与所述关键字的匹配度由高到低进行排序;
同义信息发送单元5042,用于将排序后的同义信息,按顺序依次发送给用户;
第二匹配度排序单元5043,用于对所述近义信息按其与所述关键字的匹配度由高到低进行排序;
近义信息发送单元5044,用于将排序后的近义信息,按顺序依次发送给用户。
本发明实施例将所述信息集中的信息区分为所述关键字的同义信息和近义信息,其中所述同义信息为与所述关键字的语义相同的信息,所述近义信息为与所述关键字的语义相近的信息,实现了按语义分类与用户输入关键字相关的信息,使用户可根据其自身需求选取信息,从而无需用户重新输入与该关键字相关的关键字,即可获取相关信息,减少了用户的操作,提高了用户体验。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。