CN116324791A - 信息处理程序、信息处理方法以及信息处理装置 - Google Patents
信息处理程序、信息处理方法以及信息处理装置 Download PDFInfo
- Publication number
- CN116324791A CN116324791A CN202080105588.0A CN202080105588A CN116324791A CN 116324791 A CN116324791 A CN 116324791A CN 202080105588 A CN202080105588 A CN 202080105588A CN 116324791 A CN116324791 A CN 116324791A
- Authority
- CN
- China
- Prior art keywords
- word
- protein
- information processing
- vector
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Communication Control (AREA)
Abstract
信息处理装置通过对输入文本执行词素解析而将输入文本分割为多个单词。信息处理装置基于定义了按照每个含义划分而区分的多义词与单词的类别的共现率的共现率表、以及输入文本中包含的多个单词,确定输入文本中包含的多个单词中的多义词和多义词的含义划分。信息处理装置对输入文本中包含的多义词分配与多义词的含义划分相应的向量。
Description
技术领域
本发明涉及信息处理程序等。
背景技术
作为对文章或句子(以下简称为句子)进行解析并以向量表现句子中包含的各单词的现有技术,具有Word2Vec(Skip-Gram Model(跳格模型)或CBOW)等。即便是表述不同的单词,含义相似的单词彼此也具有向量的值也相似这样的特征。在以下的说明中,将单词的向量表述为“单词向量”。例如,在Word2Vec中,以200维表现单词向量。
通过集聚构成句子的多个单词的各单词向量,来计算句子的向量。在以下的说明中,将句子的向量表述为“句子向量”。即便是表述不同的句子,含义相似的句子彼此也具有句子向量的值也相似这样的特征。例如,“私はリンゴが好きです(我喜欢苹果)。”的句子的含义与“リンゴは私の好物です(苹果是我的喜爱之物)。”的句子的含义相同,“私はリンゴが好きです(我喜欢苹果)。”的句子向量与“リンゴは私の好物です(苹果是我的喜爱之物)。”的句子向量相似。
另外,作为向单词分配单词向量(数值)的技术,也存在被称为PoincareEmbeddings(庞加莱嵌入)的技术。在该技术中,预先定义单词及其类别,基于所定义的类别,将单词嵌入到庞加莱空间。然后,在庞加莱空间内,将与嵌入的单词相应的向量分配给相符的单词。
现有技术文献
专利文献
专利文献1:日本特开2015-22398号公报
专利文献2:日本特开2018-206263号公报
发明内容
发明要解决的问题
但是,在上述的现有技术中,存在以下问题:针对多义词的多个词义(含义),无法分配适当的向量,使用了向量的解析、翻译等的精度下降。
例如,英语句子“Ichiro is cool(一郎很冷静).”中包含的单词“cool(1)”与“This room is cool(这个房间很凉爽).”中包含的单词“cool(2)”是不同词义(含义)的“cool”。另外,带有括号的数字是为了方便区分含义不同的“cool”而标注的。
如果向上述的“cool(1)”和“cool(2)”分配相同的向量(数值),则无法向“Ichirois cool(一郎很冷静).”和“This room is cool(这个房间很凉爽).”适当地分配句子向量。
这里,针对多义词的多个词义(含义),考虑按照每个含义划分而预先设定单词向量。在该情况下,在区分英语句子“Ichiro is cool(一郎很冷静).”中包含的“cool”对应于cool(1)”还是对应于“cool(2)”的情况下,使用HMM(Hidden Markov Model:隐马尔可夫模型)等进行估计,但如果要针对多义词的全部的含义划分来设定HMM的参数,则成为登记对象的信息变得庞大,是不现实的。另外,通过与如take off、take out那样被称为停用词的出现频度高的前置词连结,与多义词同样,针对具有不同含义的惯用语的向量也需要采取对策。
在1个方面,本发明的目的在于,提供一种能够分配适当的向量而提高使用了向量的解析的精度的信息处理程序、信息处理方法以及信息处理装置。
用于解决问题的手段
在第1方案中,使计算机执行以下的处理。计算机通过对输入文本执行词素解析而将输入文本分割为多个单词。计算机基于定义了按照每个含义划分而区分的多义词与单词的类别的共现率的共现率表、以及输入文本中包含的多个单词,确定输入文本中包含的多个单词中的多义词和多义词的含义划分。计算机对输入文本中包含的多义词分配与多义词的含义划分相应的向量。
发明的效果
能够分配适当的向量,提高使用了向量的解析的精度。
附图说明
图1是用于说明本实施例1的信息处理装置的处理的图。
图2是示出本实施例1的信息处理装置的结构的功能框图。
图3是示出第1词典数据的数据结构的一例的图。
图4是示出第2词典数据的数据结构的一例的图。
图5是示出第1训练数据的一例的图。
图6是示出第2训练数据的一例的图。
图7是示出第1共现率表的数据结构的一例的图。
图8是示出第2共现率表的数据结构的一例的图。
图9是示出第1类别表的数据结构的一例的图。
图10是示出第2类别表的数据结构的一例的图。
图11是示出第1向量表的数据结构的一例的图。
图12是示出第2向量表的数据结构的一例的图。
图13是用于说明本实施例1的分配部的处理的图。
图14是示出本实施例1的信息处理装置的处理步骤的一例的流程图(1)。
图15是示出本实施例1的信息处理装置的处理步骤的一例的流程图(2)。
图16是用于说明向量的维度压缩的图(1)。
图17是用于说明向量的维度压缩的图(2)。
图18是用于说明本实施例2的信息处理装置的处理的图。
图19是示出本实施例2的信息处理装置的结构的功能框图。
图20是示出碱基文件的数据结构的一例的图。
图21是示出转换表的数据结构的一例的图。
图22是示出密码子压缩文件的数据结构的一例的图。
图23是示出密码子倒置索引的数据结构的一例的图。
图24是示出蛋白质词典的数据结构的一例的图。
图25是示出蛋白质HMM的数据结构的一例的图。
图26是示出蛋白质压缩文件的数据结构的一例的图。
图27是示出蛋白质倒置索引的数据结构的一例的图。
图28是示出类别表的数据结构的一例的图。
图29是示出向量表的数据结构的一例的图。
图30是用于说明第2编码部的处理的图。
图31是示出本实施例2的信息处理装置的处理步骤的流程图。
图32是示出实现与实施例1的信息处理装置同样的功能的计算机的硬件结构的一例的图。
图33是示出实现与实施例2的信息处理装置同样的功能的计算机的硬件结构的一例的图。
具体实施方式
以下,基于附图对本申请所公开的信息处理程序、信息处理方法以及信息处理装置的实施例详细进行说明。另外,不通过该实施例来限定本发明。
实施例1
图1是用于说明本实施例1的信息处理装置的处理的图。在图1中,作为一例,针对信息处理装置向日语的输入文本da1、da2分配句子向量的情况进行说明。例如,将输入文本da1的句子设为“苺は甘い(草莓很甜)。”。将输入文本da2的句子设为“彼の考えは甘い(他的想法很天真)。”。
这里,信息处理装置使用第1共现率表143a、第1类别表144a以及第1向量表145a进行处理。
第1共现率表143a保持按照每个含义划分而区分的多义词与单词的类别的共现率的关系。在本实施例1中,通过单词和带有括号的数字的组来区分成为多义词的单词。在图1中,通过“甘い(1)”、“甘い(2)”来区分多义词“甘い”。
将“甘い(1)”的含义设为“砂糖、蜂蜜等有糖分的味道”。在包含“甘い(1)”的句子中,示出由类别ID“α”确定的单词的共现率为“78%”这一意思。在包含“甘い(1)”的句子中,示出由类别ID“β”确定的单词的共现率为“63%”这一意思。在包含“甘い(1)”的句子中,示出由类别ID“η”确定的单词的共现率为“1%”这一意思。在包含“甘い(1)”的句子中,示出由类别ID“ζ”确定的单词的共现率为“2%”这一意思。
在包含多义词“甘い”的句子中共现的其他单词是与类别ID“α”、“β”对应的单词的情况下,信息处理装置将多义词“甘い”确定为多义词“甘い(1)”。
将“甘い(2)”的含义设为“缺乏严谨的人”。在包含“甘い(2)”的句子中,示出由类别ID“α”确定的单词的共现率为“1%”这一意思。在包含“甘い(2)”的句子中,示出由类别ID“β”确定的单词的共现率为“2%”这一意思。在包含“甘い(2)”的句子中,示出由类别ID“η”确定的单词的共现率为“81%”这一意思。在包含“甘い(2)”的句子中,示出由类别ID“ζ”确定的单词的共现率为“71%”这一意思。
在包含多义词“甘い”的句子中共现的其他单词是与类别ID“η”、“ζ”对应的单词的情况下,信息处理装置将多义词“甘い”确定为多义词“甘い(2)”。
第1类别表144a是将类别ID与单词对应起来的表。各单词基于词库被分类到各类别ID。例如,“苺”、“リンゴ”、“葡萄”等水果被分类到类别ID“α”。如“彼”、“彼女”等那样与人相关的单词被分类到类别ID“η”。虽然这里省略了说明,但其他单词也被分类到任意一个类别ID。
第1向量表145a对分配给各单词的单词向量进行保持。关于多义词,按照每个含义划分而设定单词向量。通过被称为庞加莱嵌入(Poincare Embeddings)的现有技术,预先计算出各单词的单词向量。
针对信息处理装置分配输入文本da1的句子向量的处理进行说明。信息处理装置通过对输入文本da1执行词素解析而分割为单词w1-1、w1-2、w1-3。单词w1-1、w1-2、w1-3中的单词w1-3成为多义词。例如,信息处理装置使用词典数据来确定多义词。
信息处理装置对与单词w1-3共现的单词w1-1、w1-2和第1类别表144a进行比较,确定单词w1-1的类别ID“α”。省略与单词w1-2的类别ID相关的说明。
信息处理装置对与单词w1-3对应的多义词“甘い”及共现的w1-1的类别ID“α”的关系和第1共现率表143a进行比较,确定单词w1-3对应于多义词“甘い(1)”。
信息处理装置对单词w1-1、w1-2、w1-3与第1向量表145a进行比较,分别分配与单词w1-1、w1-2、w1-3对应的单词向量V1-1、V1-2、V(1)。这里,分配给单词w1-3的单词向量成为与“甘い(1)”相关的固有的单词向量V(1)。信息处理装置通过集聚单词向量V1-1、V1-2、V(1)来计算句子向量“V1”。信息处理装置对输入文本da1分配句子向量“V1”。
针对信息处理装置分配输入文本da2的句子向量的处理进行说明。信息处理装置通过对输入文本da2执行词素解析而分割为单词w2-1、w2-2、w2-3、w2-4、w2-5。单词w2-1、w2-2、w2-3、w2-4、w2-5中的单词w2-5成为多义词。例如,信息处理装置使用词典数据来确定多义词。
信息处理装置对与单词w2-5共现的单词w2-1、w2-2、w2-3、w2-4和第1类别表144a进行比较,确定单词w2-1的类别ID“η”。省略与单词w2-2~w2-4的类别ID相关的说明。
信息处理装置对与单词w2-5对应的多义词“甘い”及共现的w2-1的类别ID“η”的关系和第1共现率表143a进行比较,确定单词w2-5对应于多义词“甘い(2)”。
信息处理装置对单词w2-1~w2-5与第1向量表145a进行比较,分别分配与单词w2-1~w2-5对应的单词向量V2-1、V2-2、V2-3、V2-4、V(2)。这里,分配给单词w2-5的单词向量成为与“甘い(2)”相关的固有的单词向量V(2)。信息处理装置通过集聚单词向量V2-1、V2-2、V2-3、V2-4、V(2)来计算句子向量“V2”。信息处理装置对输入文本da2分配句子向量“V2”。
如上所述,本实施例1的信息处理装置使用定义了按照每个含义划分而区分的多义词与其他单词的类别的共现率的第1共现率表143a,确定输入文本中包含的多义词的含义,分配与多义词的含义相应的单词向量。这样,在输入文本中包含多义词的情况下,分配与多义词的含义相应的单词向量,因此,能够使与输入文本对应的句子向量的精度高精度化。
此外,信息处理装置预先基于词库将单词分类到类别ID,使用定义了按照每个含义划分而区分的多义词与类别ID的共现率的第1共现率表143a,进行处理。因此,与定义每个单词的共现率的以往型的HMM相比,能够减少第1共现率表143a的数据量。
接着,对本实施例1的信息处理装置的结构进行说明。图2是示出本实施例1的信息处理装置的结构的功能框图。如图2所示,该信息处理装置100具有通信部110、输入部120、显示部130、存储部140、控制部150。
通信部110通过有线或无线而与外部装置等连接,与外部装置等之间进行信息的收发。例如,通信部110由NIC(Network Interface Card:网络接口卡)等实现。通信部110也可以与未图示的网络连接。
输入部120是向信息处理装置100输入各种信息的输入装置。输入部120对应于键盘、鼠标、触摸面板等。
显示部130是显示从控制部150输出的信息的显示装置。显示部130对应于液晶显示器、有机EL(Electro Luminescence:电致发光)显示器、触摸面板等。
存储部140具有第1词典数据141a、第2词典数据141b、第1训练数据142a、第2训练数据142b、第1共现率表143a、第2共现率表143b。存储部140具有第1类别表144a、第2类别表144b、第1向量表145a、第2向量表145b。存储部140具有第1文本数据146a、第2文本数据146b。存储部140例如由RAM(Random Access Memory:随机存取存储器)、闪存(FlashMemory)等半导体存储器元件、或者硬盘、光盘等存储装置实现。
第1词典数据141a是对日语单词的词典的格式进行了扩展的词典数据,除了日语单词之外,还登记有日语的多义词、惯用语、专业术语等。图3是示出第1词典数据的数据结构的一例的图。例如,第1词典数据141a将词串、词性、分类、多义词标志等对应起来。
词串是表示考虑了活用或表述波动等的、在句子中实际上作为字符串出现的单词的形式的词串(表层形)。词性表示句子中的单词的词性。分类表示句子中的单词的分类。多义词标志是表示词串是否为多义词的标志。在是多义词的情况下,多义词标志为“1”。在不是多义词的情况下,多义词标志为“0”。
第2词典数据141b是对英语单词的词典的格式进行了扩展的词典数据,除了英语单词之外,还登记有英语的多义词、惯用语、专业术语等。图4是示出第2词典数据的数据结构的一例的图。例如,第2词典数据141b将词串、词性、分类、多义词标志等对应起来。
关于词串、词性、分类、多义词标志的说明与图3中进行的说明相同。
第1训练数据142a是在计算与日语相关的第1共现率表143a的各共现率(参数)的情况下使用的数据。图5是示出第1训练数据的一例的图。如图5所示,第1训练数据142a包含多个日语句子。此外,对于句子中包含的单词中的成为多义词的单词,通过单词与带有括号的数字的组来区分。甘い(1)和甘い(2)成为不同的含义划分的单词。
第2训练数据142b是在计算与英语相关的第2共现率表143b的各共现率(参数)的情况下使用的数据。图6是示出第2训练数据的一例的图。如图6所示,第2训练数据142b包含多个英语句子。此外,对于句子中包含的单词中的成为多义词的单词,通过单词与带有括号的数字的组来区分。cool(1)和cool(2)成为不同的含义划分的单词。
第1共现率表143a保持按照每个含义划分而区分的多义词(日语的多义词)与单词(日语的单词)的类别的共现率的关系。图7是示出第1共现率表的数据结构的一例的图。如图7所示,通过单词与带有括号的数字的组来区分相同词串的多义词。图7的关于第1共现率表143a的说明与图1中进行的关于第1共现率表143a的说明相同。
第2共现率表143b保持按照每个含义划分而区分的多义词(英语的多义词)与单词(英语单词)的类别的共现率的关系。图8是示出第2共现率表的数据结构的一例的图。如图8所示,通过单词与带有括号的数字的组来区分相同词串的多义词。
“coo1(1)”的含义是“凉爽”。在包含“coo1(1)”的句子中,示出由类别ID“ε”确定的单词的共现率为“75%”这一意思。在包含“coo1(1)”的句子中,示出由类别ID“λ”确定的单词的共现率为“60%”这一意思。在包含“coo1(1)”的句子中,示出由类别ID“η”确定的单词的共现率为“1%”这一意思。在包含“coo1(1)”的句子中,示出由类别ID“ζ”确定的单词的共现率为“2%”这一意思。
在包含多义词“coo1”的句子中共现的其他单词是与类别ID“ε”、“λ”对应的单词的情况下,信息处理装置100将多义词“coo1”确定为多义词“coo1(1)”。
“coo1(2)”的含义是“冷静、沉着”。在包含“coo1(2)”的句子中,示出由类别ID“ε”确定的单词的共现率为“1%”这一意思。在包含“coo1(2)”的句子中,示出由类别ID“λ”确定的单词的共现率为“2%”这一意思。在包含“coo1(2)”的句子中,示出由类别ID“η”确定的单词的共现率为“77%”这一意思。在包含“coo1(2)”的句子中,示出由类别ID“ζ”确定的单词的共现率为“75%”这一意思。
在包含多义词“coo1”的句子中共现的其他单词是与类别ID“η”、“ζ”对应的单词的情况下,信息处理装置100将多义词“coo1”确定为多义词“coo1(2)”。
第1类别表144a是将类别ID与日语单词对应起来的表。图9是示出第1类别表的数据结构的一例的图。如图9所示,第1类别表144a将类别ID与单词对应起来。类别ID是唯一地识别类别的信息。单词基于词库被分类到各类别ID。
例如,单词“苺”、“リンゴ”、“葡萄”等被分类到类别ID“α”。单词“クッキー”、“ケーキ”、“アイスクリーム”等被分类到类别ID“β”。单词“彼”、“彼女”、“おまえ”、“あいつ”等被分类到类别ID“η”。单词“考え”、“希望”、“アイデア”等被分类到类别“ζ”。
第2类别表144b是将类别ID与英语单词对应起来的表。图10是示出第2类别表的数据结构的一例的图。如图10所示,第2类别表144b将类别ID与单词对应起来。类别ID是唯一地识别类别的信息。单词基于词库被分类到各类别ID。
例如,单词“room”、“place”、“hall”等被分类到类别ID“ε”。单词“temperature”、“air”、“atmosphere”等被分类到类别ID“λ”。单词“he”、“she”、“you”、“chap”等被分类到类别ID“η”。单词“thought”、“hope”、“idea”等被分类到类别“ζ”。
第1向量表145a定义日语单词的单词向量。此外,对于多义词,按照每个含义划分而对应不同的单词向量。图11是示出第1向量表145a的数据结构的一例的图。如图11所示,该第1向量表145a将单词与单词向量对应起来。将单词向量的维度设为200维。
例如,对于多义词“甘い”,按照每个含义划分而对应单词向量。单词向量(200维)“Vj1-1~Vj1-200”对应于“甘い(1)”。单词向量(200维)“Vj2-1~Vj2-200”对应于“甘い(2)”。
第2向量表145b定义英语单词的单词向量。此外,对于多义词,按照每个含义划分而对应不同的单词向量。对于惯用语,针对构成惯用语的多个单词对应一个单词向量。图12是示出第2向量表145b的数据结构的一例的图。如图12所示,该第2向量表145b将单词与单词向量对应起来。将单词向量的维度设为200维。
例如,对于多义词“cool”,按照每个含义划分而对应单词向量。单词向量(200维)“Ve1-1~Ve1-200”对应于“cool(1)”。单词向量(200维)“Ve2-1~Ve2-200”对应于“cool(2)”。
此外,对于惯用语“take off”,对应一个单词向量(200维)“Ve4-1~Ve4-200”。对于惯用语“take out”,对应一个单词向量(200维)“Ve5-1~Ve5-200”。
使用被称为庞加莱嵌入的技术,预先计算出图11、图12中说明的单词向量。
在庞加莱嵌入中,根据嵌入到庞加莱空间的位置而分配向量,此外,具有越是相似的信息则嵌入到越近的位置这样的特征。因此,分类为相同的共同概念的各基本信息在庞加莱空间内分别被嵌入到接近的位置,因此,被分配相似的向量。例如,日语单词“甘い(1)”和英语单词“sweet”是相似的含义,因此,被分配相似的单词向量。
第1文本数据146a是包含多个日语句子(输入文本)的数据。后述的控制部150进行对第1文本数据146a中包含的输入文本分配句子向量的处理。
第2文本数据146b是包含多个英语句子(输入文本)的数据。后述的控制部150对第2文本数据146b中包含的输入文本分配句子向量。
控制部150具有受理部151、计算部152、生成部153、分配部154。控制部150例如由CPU(Central Processing Unit:中央处理单元)、MPU(Micro Processing Unit:微处理单元)实现。此外,控制部150例如也可以由ASIC(Application Specific IntegratedCircuit:专用集成电路)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等集成电路执行。
受理部151经由网络从外部装置等受理各种数据,将受理到的数据存储于存储部140。例如,受理部151受理第1词典数据141a、第2词典数据141b、第1训练数据142a、第2训练数据142b、第1类别表144a、第2类别表144b,并存储于存储部140。
计算部152通过执行庞加莱嵌入而计算各单词、惯用语、专业术语等的单词向量。计算部152基于非专利文献“Valentin Khrulkov1 et al.“Hyperbolic ImageEmbeddings”Cornell University、2019April 3”等所记载的技术,计算单词、惯用语、专业术语等的单词向量,并登记于第1向量表145a、第2向量表145b。
另外,在由执行庞加莱嵌入的外部装置事先计算出各单词的单词向量的情况下,受理部151从外部装置受理第1向量表145a、第2向量表145b并存储于存储部140。
生成部153是生成第1共现率表143a和第2共现率表143b的处理部。生成部153将生成的第1共现率表143a和第2共现率表143b存储于存储部140。
针对生成部153生成第1共现率表143a的处理的一例进行说明。生成部153通过对第1训练数据142a中包含的日语句子执行词素解析而分割为多个单词。生成部153从分割后的多个单词中确定多义词。如图5所说明的那样,在第1训练数据142a中,多义词被定义为能够通过单词与带有括号的数字的组来识别。在以下的说明中,针对生成部153计算多义词“甘い(1)”的共现率的处理进行说明。
生成部153检测与多义词“甘い(1)”共现的单词,对检测到的单词与第1类别表144a进行比较,由此,确定与多义词“甘い(1)”共现的单词的类别ID。这里,与多义词共现的单词可以是包含在与多义词相同的句子中的单词,也可以是位于与多义词相同的句子的前方的单词,还可以是与多义词相同的句子的后方的单词。
例如,在第1训练数据142a中,多义词“甘い(1)”出现了MA次。此外,与多义词“甘い(1)”共现的单词的类别ID“α”出现了LA次。在该情况下,多义词“甘い(1)”与类别ID“α”的共现率成为“LA/MA×100”。生成部153通过针对各多义词(单词与带有括号的数字的组)重复进行上述处理而生成第1共现率表143a。
接下来,针对生成部153生成第2共现率表143b的处理的一例进行说明。生成部153通过对第2训练数据142b中包含的英语句子执行词素解析而分割为多个单词。生成部153从分割后的多个单词中确定多义词。如图6所说明的那样,在第2训练数据142b中,多义词被定义为能够通过单词与带有括号的数字的组来识别。在以下的说明中,针对生成部153计算多义词“cool(1)”的共现率的处理进行说明。
生成部153检测与多义词“cool(1)”共现的单词,并对检测到的单词与第2类别表144b进行比较,由此确定与多义词“cool(1)”共现的单词的类别ID。这里,与多义词共现的单词可以是包含在与多义词相同的句子中的单词,也可以是位于与多义词相同的句子的前方的单词,还可以是与多义词相同的句子的后方的单词。
例如,在第2训练数据142b中,多义词“cool(1)”出现了MB次。此外,与多义词“cool(1)”共现的单词的类别ID“α”出现了LB次。在该情况下,多义词“cool(1)”与类别ID“α”的共现率成为“LB/MB×100”。生成部153通过针对各多义词(单词与带有括号的数字的组)重复进行上述处理而生成第2共现率表143b。
分配部154对第1文本数据146a中包含的日语的输入文本分配句子向量。此外,分配部154对第2文本数据146b中包含的英语的输入文本分配句子向量。
图13是用于说明本实施例1的分配部的处理的图。首先,针对分配部154对第1文本数据146a中包含的日语句子(输入文本da1)分配句子向量的处理进行说明。
分配部154通过对输入文本da1执行词素解析而分割为单词w1-1、w1-2、w1-3。单词w1-1、w1-2、w1-3中的单词w1-3成为多义词。分配部154使用第1词典数据141a来确定多义词“甘い”。
分配部154对与单词w1-3共现的单词w1-1、w1-2和第1类别表144a进行比较,确定单词w1-1的类别ID“α(水果)”。省略与单词w1-2的类别ID相关的说明。
分配部154对与单词w1-3对应的多义词“甘い”及共现的w1-1的类别ID“α”的关系和第1共现率表143a进行比较,确定每个含义划分的共现率。在图7中,多义词“甘い(1)”与类别ID“α”的共现率为“78%”。另一方面,多义词“甘い(2)”与类别ID“α”的共现率为“1%”。由于“甘い(1)”与类别ID“α”的共现率成为最大,因此,分配部154确定单词w1-3对应于多义词“甘い(1)”。
分配部154对单词w1-1、w1-2、w1-3与第1向量表145a进行比较,分别分配与单词w1-1、w1-2、w1-3对应的单词向量V1-1、V1-2、V(1)。设单词向量V1-1、V1-2、V(1)为200维的向量,对此省略图示。
分配部154通过集聚单词向量V1-1、V1-2、V(1)来计算句子向量“V1”。分配部154对输入文本da1分配句子向量“V1”。分配部154通过针对第1文本数据146a中包含的其他输入文本也重复执行上述处理而分配句子向量。
接下来,针对分配部154对第2文本数据146b中包含的英语句子(输入文本da3)分配句子向量的处理进行说明。
分配部154通过对输入文本da3执行词素解析而分割为单词w3-1、w3-2、w3-3。单词w3-1、w3-2、w3-3中的单词w3-3成为多义词。分配部154使用第2词典数据141b来确定多义词“cool”。
分配部154对与单词w3-3共现的单词w3-1、w3-2和第2类别表144b进行比较。例如,将单词w3-1的类别ID设为“η(人)”。省略与单词w3-2的类别ID相关的说明。
分配部154对与单词w3-3对应的多义词“cool”及共现的w3-1的类别ID“η”的关系和第2共现率表143b进行比较,确定每个含义划分的共现率。在图8中,多义词“cool(1)”与类别ID“η”的共现率为“1%”。另一方面,多义词“cool(2)”与类别ID“η”的共现率为“77%”。由于“cool(2)”与类别ID“η”的共现率成为最大,因此分配部154确定单词w3-3对应于多义词“cool(2)”。
分配部154对单词w3-1、w3-2、w3-3与第2向量表145b进行比较,分别分配与单词w3-1、w3-2、w3-3对应的单词向量V3-1、V3-2、V(3)。设单词向量V3-1、V3-2、V(3)为200维的向量,对此省略图示。
分配部154通过集聚单词向量V3-1、V3-2、V(3)来计算句子向量“V3”。分配部154对输入文本da3分配句子向量“V3”。分配部154通过针对第2文本数据146b中包含的其他输入文本也重复执行上述处理而分配句子向量。
接着,对本实施例1的信息处理装置100的处理步骤的一例进行说明。图14是示出本实施例1的信息处理装置的处理步骤的一例的流程图(1)。如图14所示,信息处理装置100的分配部154从第1文本数据146a取得输入文本(步骤S101)。
分配部154对输入文本执行词素解析,分割为多个单词(步骤S102)。分配部154基于第1词典数据141a,从多个单词中确定多义词(步骤S103)。分配部154基于第1类别表144a,确定多个单词的类别ID(步骤S104)。
分配部154基于多义词及共现的类别ID和第1共现率表143a,确定多义词的含义划分(步骤S105)。分配部154基于第1向量表145a,确定各单词、多义词的单词向量(步骤S106)。
分配部154通过集聚各单词、多义词的单词向量来计算句子向量(步骤S107)。分配部154对输入文本分配句子向量(步骤S108)。
图15是示出本实施例1的信息处理装置的处理步骤的一例的流程图(2)。如图14所示,信息处理装置100的分配部154从第2文本数据146b取得输入文本(步骤S201)。
分配部154对输入文本执行词素解析,分割为多个单词(步骤S202)。分配部154基于第2词典数据141b,从多个单词中确定多义词(步骤S203)。分配部154基于第2类别表144b,确定多个单词的类别ID(步骤S204)。
分配部154基于多义词及共现的类别ID和第2共现率表143b,确定多义词的含义划分(步骤S205)。分配部154基于第2向量表145b,确定各单词、多义词的单词向量(步骤S206)。
分配部154通过集聚各单词、多义词的单词向量来计算句子向量(步骤S207)。分配部154对输入文本分配句子向量(步骤S208)。
接着,对本实施例1的信息处理装置100的效果进行说明。信息处理装置100使用定义了按照每个含义划分而区分的多义词与其他单词的类别的共现率的第1共现率表143a(第2共现率表143b),确定输入文本中包含的多义词的含义。信息处理装置100基于确定出的结果,分配与多义词的含义相应的单词向量。这样,在输入文本中包含多义词的情况下,分配与多义词的含义相应的单词向量,因此,能够使与输入文本对应的句子向量的精度高精度化。
信息处理装置100预先基于词库将单词分类到类别ID,使用定义了按照含义划分而区分的多义词与类别ID的共现率的第1共现率表143a(第2共现率表143b),进行处理。因此,与定义每个单词的共现率的以往型的HMM相比,能够减少第1共现率表143a(第2共现率表143b)的数据量。此外,通过与类别对应起来的HMM,减少了平均的对照次数,因此,能够实现处理的高速化。
信息处理装置100通过执行庞加莱嵌入来计算各单词的单词向量。由此,能够分配与含义相应的单词向量。此外,针对由多个单词构成的惯用语,也能够分配与含义相应的一个单词向量。
这里,针对实施例1中说明的信息处理装置100的其他的处理1进行说明。信息处理装置100也可以使用将日语的第1句子与第2句子对应起来的训练数据,执行RNN(RecurrentNeural Network:递归神经网络)机器学习,生成将日语翻译成英语的机器学习模型,该第2句子是将这样的第1句子翻译成英语而得到的。
例如,信息处理装置100对训练数据中包含的第1句子进行词素解析,对各单词分配单词向量。此外,信息处理装置100通过进行上述的处理,在第1句子中包含多义词的情况下,分配与多义词的含义划分对应的单词向量。
同样,信息处理装置100对训练数据中包含的第2句子进行词素解析,对各单词分配单词向量。此外,信息处理装置100通过进行上述的处理,在第2句子中包含多义词的情况下,分配与多义词的含义划分对应的单词向量。
信息处理装置100使用分配给第1句子的各单词的单词向量与分配给第2句子的各单词的单词向量之间的关系,执行RNN机器学习。
接下来,针对实施例1中说明的信息处理装置100的其他的处理2进行说明。实施例1中说明的第1向量表145a、第2向量表145b的单词向量是200维的向量,但也可以执行维度压缩,转换成低维度(例如3维)的单词向量。
图16和图17是用于说明向量的维度压缩的图。对图16进行说明。信息处理装置100的计算部152将分量分解成200维的200根基底向量aiei(i=1~200)等分地分散配置为圆状(半圆状)。另外,分量分解前的向量A与分量分解后的各基底向量aiei之间的关系由式(1)定义。
[数式1]
对图17进行说明。计算部152针对基底向量a1e1,对剩余的基底向量a2e2~a200e200分别进行正交转换,并对正交转换后的各基底向量a2e2~a200e200的值进行累计,由此计算基底向量a1e1的值。
计算部152针对基底向量a67e67,对剩余的基底向量a1e1(实线+箭头)、a2e2、a3e3~a66e66、a68e68~a200e200分别进行正交转换,并对正交转换后的各基底向量a1e1~a66e66、a68e68~a200e200的值进行累计,由此计算基底向量a67e67的值。
计算部152针对基底向量a131e131,对剩余的基底向量a1e1~a130e130、a132e132~a200e200分别进行正交转换,并对正交转换后的各基底向量a1e1~a130e130、a132e132~a200e200的值进行累计,由此计算基底向量a131e131的值。
计算部152将对200维的向量进行维度压缩而得到的压缩向量的各成分设为“基底向量a1e1的值、基底向量a67e67的值、基底向量a131e131的值”。计算部152对其他维度也同样地进行计算。另外,计算部152也可以使用KL展开等,进行维度压缩。计算部152针对第1向量表145a、第2向量表145b的各单词向量分别执行上述的维度压缩,由此对单词向量进行维度压缩。
通过如上述那样执行维度压缩,与处理200维的单词向量的情况相比,能够削减与单词向量关联的计算量。另外,维度压缩后的单词向量虽然回到200维是不可逆的,但能够复原。
实施例2
本实施例2的信息处理装置对“碱基文件”进行处理。碱基文件是排列有多个碱基记号A、G、C、T(或者U)的信息,3个碱基的组合的密码子对应于规定的氨基酸。此外,连续的多个氨基酸的组合对应于规定的蛋白质,多个蛋白质的组合对应于一阶构造。此外,多个一阶构造的组合成为高阶构造。
在本实施例2中,作为一例,对向蛋白质分配向量的情况进行说明。图18是用于说明本实施例2的信息处理装置的处理的图。在图18中,信息处理装置使用蛋白质HMM246、类别表250以及向量表251进行处理。
蛋白质HMM246对蛋白质与蛋白质的类别的共现率的关系进行保持。例如,示出蛋白质P1与由类别ID“CL1”确定的蛋白质的共现率为“78%”这一意思。示出蛋白质P1与由类别ID“CL2”确定的蛋白质的共现率为“63%”这一意思。示出蛋白质P1与由类别ID“CL3”确定的蛋白质的共现率为“1%”这一意思。示出蛋白质P1与由类别ID“CL4”确定的蛋白质的共现率为“2%”这一意思。
示出蛋白质P2与由类别ID“CL1”确定的蛋白质的共现率为“1%”这一意思。示出蛋白质P2与由类别ID“CL2”确定的蛋白质的共现率为“2%”这一意思。示出蛋白质P2与由类别ID“CL3”确定的蛋白质的共现率为“81%”这一意思。示出蛋白质P2与由类别ID“CL4”确定的蛋白质的共现率为“71%”这一意思。
类别表250是将类别ID与蛋白质对应起来的表。具有相同特性的蛋白质彼此被分类到相同的类别ID。蛋白质A1、蛋白质A2、蛋白质A3等被分类到类别ID“CL1”。蛋白质B1、蛋白质B2、蛋白质B3等被分类到类别ID“CL2”。“凝血酶”、“胰凝乳蛋白酶”、“纳豆激酶”被分类到相同的类别ID,对此省略了图示。
向量表251保持对各蛋白质分配的向量。通过被称为庞加莱嵌入(PoincareEmbeddings)的现有技术,预先计算出各蛋白质的向量。
信息处理装置100从碱基文件241的开头起,使用各种词典数据,确定蛋白质的分隔,并确定蛋白质的种类。之后叙述各种词典数据。信息处理装置在确定蛋白质的种类的过程中,有时列出多个蛋白质的种类作为候选。
在图18所示的例子中,示出紧接着蛋白质A1的蛋白质的候选成为蛋白质P1或蛋白质P2中的任意一方的情况。
信息处理装置基于蛋白质A1和类别表250,确定蛋白质A1的类别ID“CL1”。信息处理装置基于蛋白质HMM246,确定类别ID“CL1”与蛋白质P1的共现率“78%”。信息处理装置基于蛋白质HMM246,确定类别ID“CL1”与蛋白质P2的共现率“1%”。
由于类别ID“CL1”与蛋白质P1的共现率大于类别ID“CL1”与蛋白质P2的共现率,因此,信息处理装置将接着蛋白质A1的蛋白质确定为蛋白质P1。信息处理装置针对接着蛋白质P1的蛋白质,也基于共现率,重复执行确定蛋白质的种类的处理。
信息处理装置在蛋白质的确定结束之后,基于向量表251,对蛋白质分配向量。在图18所示的例子中,信息处理装置对蛋白质A1分配向量Vp1,对蛋白质A1分配向量Vp2。信息处理装置通过对碱基文件241中包含的各蛋白质的向量进行累计,来计算碱基文件241的向量。
如上所述,本实施例2的信息处理装置基于定义了蛋白质与蛋白质的类别的共现率的蛋白质HMM246,确定碱基文件241中包含的蛋白质的种类,并分配向量。由此,即便无法唯一地确定碱基文件241中包含的蛋白质的种类,也能够使用共现率,确定准确的蛋白质的种类,能够分配适当的向量。
此外,信息处理装置预先基于蛋白质的相似性而将蛋白质分类到类别ID,使用定义了蛋白质与类别ID的共现率的蛋白质HMM246进行处理。因此,对定义每个蛋白质的共现率的情况与HMM进行比较,能够减少蛋白质HMM246的数据量。
接着,对本实施例2的信息处理装置的结构进行说明。图19是示出本实施例2的信息处理装置的结构的功能框图。如图19所示,该信息处理装置200具有通信部210、输入部220、显示部230、存储部240、控制部260。
通信部210通过有线或无线而与外部装置等连接,与外部装置等之间进行信息的收发。例如,通信部210由NIC等实现。通信部210也可以与未图示的网络连接。
输入部220是向信息处理装置200输入各种信息的输入装置。输入部220对应于键盘、鼠标、触摸面板等。
显示部230是显示从控制部260输出的信息的显示装置。显示部230对应于液晶显示器、有机EL显示器、触摸面板等。
存储部240具有碱基文件241、转换表242、密码子压缩文件243、密码子倒置索引244、蛋白质词典245、蛋白质HMM246。此外,存储部240具有词典索引247、蛋白质压缩文件248、蛋白质倒置索引249、类别表250、向量表251。存储部240例如由RAM、闪存等半导体存储器元件或者硬盘、光盘等存储装置实现。
碱基文件241是对排列有多个碱基的信息进行保持的文件。图20是示出碱基文件的数据结构的一例的图。DNA或RNA的碱基为4种,以“A”、“G”、“C”、“T”或“U”的记号表示。3个碱基序列统称为64种密码子,决定了20种氨基酸。各个氨基酸由“A”~“Y”的记号表示。
转换表242是将密码子与对应于密码子的码对应起来的表。图21是示出转换表的数据结构的一例的图。如图21所示,各密码子与各码被对应起来。例如,密码子“UUU”的码成为“40h(01000000)”。“h”表示16进制。
密码子压缩文件243是对排列有编码后的多个密码子的信息进行保持的文件。图22是示出密码子压缩文件的数据结构的一例的图。如图22所示,密码子压缩文件243成为排列密码子单位的码的信息。在本实施例2中,为了方便,在码的旁边以带有括号的方式示出编码前的碱基(密码子)。例如,密码子“AUG”被转换成码“63h”,但将转换后的码表述为“(AUG)63h”。“h”表示16进制。
密码子倒置索引244是将从密码子压缩文件243的开头起的偏移与密码子的种类(密码子的码)对应起来的信息。图23是示出密码子倒置索引的数据结构的一例的图。在图23中,密码子倒置索引244的横轴是与偏移对应的轴。密码子倒置索引244的纵轴是与密码子的种类(密码子的码)对应的轴。密码子倒置索引244由“0”或“1”的比特图示出,在初始状态下,全部的比特图被设定为“0”。
例如,将密码子压缩文件243的开头的密码子的码的偏移设为“0”。在从密码子压缩文件243的开头起第7个位置包含密码子的码“(AUG)63h”的情况下,密码子倒置索引244的偏移“6”的列与密码子的码“(AUG)63h”的行所交叉的位置的比特成为“1”。
蛋白质词典245是将蛋白质的信息与对应于蛋白质的密码子码序列对应起来的信息。图24是示出蛋白质词典的数据结构的一例的图。如图24所示,该蛋白质词典245将蛋白质信息、氨基酸码序列以及密码子码序列对应起来。
在蛋白质信息中,包含蛋白质的“码”、蛋白质所属的“组”、以及蛋白质的“名称”。氨基酸码序列是与蛋白质的码(蛋白质的种类)对应的氨基酸的码的序列。密码子码序列是与蛋白质的码(蛋白质的种类)对应的密码子的码的序列。
例如,蛋白质“一型胶原蛋白”属于组“胶原蛋白”,码成为“8000h”。针对码“8000h”的氨基酸码序列成为“02h46h59h……03h”。此外,密码子码序列成为“02h63h78h……03h”。
蛋白质HMM246保持关于蛋白质与接着该蛋白质的蛋白质所属的类别ID的共现率的信息。图25是示出蛋白质HMM的数据结构的一例的图。如图25所示,该蛋白质HMM246将蛋白质信息与共现率对应起来。
在蛋白质信息中,包含蛋白质的“码”、蛋白质所属的“组”、以及蛋白质的“名称”。在共现率中,分别设定蛋白质与类别ID的共现率。
例如,针对蛋白质HMM246的第1行的记录进行说明。接在蛋白质的码“8000h”之后的蛋白质成为类别ID“CL1”的蛋白质的概率(共现率)为“78%”。接在蛋白质的码“8000h”之后的蛋白质成为类别ID“CL2”的蛋白质的概率(共现率)为“63%”。接在蛋白质的码“8000h”之后的蛋白质成为类别ID“CL3”的蛋白质的概率(共现率)为“1%”。接在蛋白质的码“8000h”之后的蛋白质成为类别ID“CL4”的蛋白质的概率(共现率)为“2%”。
词典索引247是对密码子压缩文件243中包含的各密码子码序列(与蛋白质对应的密码子码序列的簇)的间断的偏移进行保持的信息。例如,在词典索引247中,各间断由从密码子压缩文件243的开头起的偏移表示。在本实施例2中,作为一例,由后续的密码子码序列的开头的密码子码的偏移表示间断。另外,除了密码子码序列之外,还可以与氨基酸码序列(以后省略)对应起来。
蛋白质压缩文件248是对排列有多个蛋白质的码的信息进行保持的文件。图26是示出蛋白质压缩文件的数据结构的一例的图。如图26所示,蛋白质压缩文件248成为排列蛋白质单位的码的信息。
蛋白质倒置索引249是将从蛋白质压缩文件248的开头起的偏移与蛋白质的种类(蛋白质的码)对应起来的信息。图27是示出蛋白质倒置索引的数据结构的一例的图。在图27中,蛋白质倒置索引249的横轴是与偏移对应的轴。蛋白质倒置索引249的纵轴是与蛋白质的种类(蛋白质的码)对应的轴。蛋白质倒置索引249由“0”或“1”的比特图表示,在初始状态下,全部的比特图被设定为“0”。
例如,将蛋白质压缩文件248的开头的蛋白质的码的偏移设为“0”。在从蛋白质压缩文件248的开头起第8个位置包含蛋白质的码“8000h(一型胶原蛋白)”的情况下,蛋白质倒置索引249的偏移“7”的列与蛋白质的码“8000h(一型胶原蛋白)”的行所交叉的位置的比特成为“1”。
类别表250是定义蛋白质(蛋白质的码)所属的类别ID的表。图28是示出类别表的数据结构的一例的图。如图28所示,类别表250将类别ID与蛋白质的码对应起来。例如,蛋白质的码“8000h”、“8001h”、“8002h”等与类别ID“CL1”对应起来。与相同的类别ID对应起来的蛋白质成为具有相似的特性的蛋白质。
向量表251对分配给蛋白质的码的向量进行保持。图29是示出向量表的数据结构的一例的图。如图29所示,该向量表251将蛋白质的码与向量对应起来。使用被称为庞加莱嵌入的技术,预先计算出蛋白质的码的向量。
控制部260具有受理部261、第1编码部262、第2编码部263以及分配部264。控制部260例如由CPU或MPU实现。此外,控制部260例如也可以由ASIC或FPGA等集成电路执行。
受理部261是经由通信部110从与网络连接的外部装置(省略图示)取得各种信息的处理部。例如,受理部261在从外部装置取得了碱基文件241的情况下,将碱基文件241存储于存储部240。另外,受理部261在碱基文件241被ZIP等压缩的情况下,对压缩后的碱基文件241进行解压缩。
第1编码部262是基于碱基文件241和转换表242而生成密码子压缩文件243的处理部。第1编码部262从碱基文件241三个三个地取出碱基,对取出的3个碱基与转换表242进行比较,确定与3个碱基(密码子)对应的码,将3个碱基转换成码。例如,第1编码部262将密码子“AUG”转换成码“63h”。第1编码部262通过重复执行上述处理而生成密码子压缩文件243。
第1编码部262在生成密码子压缩文件243时,生成密码子倒置索引244。例如,第1编码部262对与转换后的密码子的码及密码子压缩文件243的码的偏移对应的密码子倒置索引244的比特图设定“1”。
第2编码部263是生成蛋白质压缩文件248和蛋白质倒置索引249的处理部。
第2编码部263基于词典索引247,来确定密码子压缩文件243中包含的各蛋白质的密码子码序列的间断。第2编码部263基于各间断之间的密码子码序列和蛋白质词典245,确定与各间断之间的密码子码序列对应的蛋白质的码,将密码子码序列转换成蛋白质的码。
这里,在接着蛋白质的码(间断)的密码子码序列对应于多个蛋白质的码的情况下,第2编码部263基于蛋白质HMM246,确定相符的多个蛋白质的码中的共现率最高的蛋白质的码。
图30是用于说明第2编码部的处理的图。如图30所示,有时从密码子压缩文件243的某个间断的偏移P到偏移NA的密码子码序列对应于蛋白质A的码(例如,8011h),并且,从偏移P到偏移NB的密码子码序列与蛋白质B的码(例如,8225h)一致。此外,将紧排在前面的蛋白质的码设为“8000h”。
第2编码部263对蛋白质A的码“8011h”与类别表250进行比较,确定蛋白质A的类别是类别ID“CL1”。第2编码部263对蛋白质B的码“8225h”与类别表250进行比较,确定蛋白质A的类别是类别ID“CL4”。
第2编码部263对直线的蛋白质的码“8000h”及类别ID“CL1”与蛋白质HMM246进行比较,确定共现率“78%”。第2编码部263对直线的蛋白质的码“8000h”及类别ID“CL4”与蛋白质HMM246进行比较,确定共现率“2%”。
由于蛋白质的码“8000h”与类别ID“CL1”的共现率大于蛋白质的码“8000h”与类别ID“CL4”的共现率,因此,第2编码部263将接着码“8000h”的蛋白质的码确定为“8011h”。第2编码部263根据所确定的码“8011h”来转换密码子码序列。例如,第2编码部263将图30的偏移P~P+NA的密码子的码设为蛋白质A的码,将偏移P+NA+1设为间断,通过重复执行上述处理而生成蛋白质压缩文件248。
第2编码部263在生成蛋白质压缩文件248时,生成蛋白质倒置索引249。蛋白质倒置索引249是将从蛋白质压缩文件248的开头起的偏移与蛋白质的码对应起来的信息。
分配部264是对蛋白质压缩文件248中包含的各蛋白质的码与向量表251进行比较而对蛋白质的码分配向量的处理部。分配部264也可以通过集聚对蛋白质压缩文件248中包含的各蛋白质的码分配的向量,来计算蛋白质压缩文件248的向量。
接着,对本实施例2的信息处理装置200的处理步骤的一例进行说明。图31是示出本实施例2的信息处理装置的处理步骤的流程图。如图31所示,信息处理装置200的第1编码部262以密码子单位对碱基文件241进行压缩,生成密码子压缩文件243和密码子倒置索引244(步骤S301)。
信息处理装置200的第2编码部263基于蛋白质词典245和密码子倒置索引244,确定密码子压缩文件243中包含的蛋白质的码(步骤S302)。
第2编码部263将密码子压缩文件243中包含的蛋白质的间断登记于词典索引247(步骤S303)。第2编码部263基于蛋白质词典245和词典索引247,确定密码子压缩文件243中包含的后续的蛋白质的码(步骤S304)。
第2编码部263在存在多个后续的蛋白质的码的候选的情况下,基于蛋白质HMM246、类别表250来确定蛋白质的码(步骤S305)。
第2编码部263对蛋白质压缩文件248、蛋白质倒置索引249、词典索引247进行更新(步骤S306)。信息处理装置200的分配部264基于向量表251,对蛋白质的码分配向量(步骤S307)。
信息处理装置200在未到达终端的情况下(步骤S308,否),移至步骤S304。另一方面,信息处理装置200在到达终端的情况下(步骤S308,是),结束处理。
接着,对本实施例2的信息处理装置200的效果进行说明。信息处理装置200基于定义了蛋白质与蛋白质的类别的共现率的蛋白质HMM246,确定碱基文件241中包含的蛋白质的种类,分配向量。由此,即便无法唯一地确定碱基文件241中包含的蛋白质的种类,也能够使用共现率来确定准确的蛋白质的种类,能够分配适当的向量。
此外,信息处理装置200预先基于蛋白质的相似性而将蛋白质分类到类别ID,使用定义了蛋白质与类别ID的共现率的蛋白质HMM246进行处理。因此,对定义每个蛋白质的共现率的情况与HMM进行比较,能够减少蛋白质HMM246的数据量。此外,通过与类别对应起来的HMM,平均的对照次数减少,因此,能够实现处理的高速化。
另外,本实施例2的信息处理装置200使用定义了与蛋白质相关的共现率的蛋白质HMM246,对碱基文件241中包含的各蛋白质分配了向量,但不限于此。例如,信息处理装置200也可以使用定义了与蛋白质的一阶构造相关的共现率的一阶构造HMM,对碱基文件241中包含的各蛋白质的一阶构造分配向量。
此外,不限于碱基文件241,关于包含化学结构式的化学结构式文件,也能够应用本申请发明。在化学结构式文件中包含多个官能团。信息处理装置200在对这样的官能团分配向量的情况下,当存在多个官能团的候选时,使用官能团HMM,确定出现频度高的官能团,分配与确定出的官能团相应的向量。此外,对于相似的多个官能团,也可以分配相同的类别ID,实现官能团HMM的数据削减。
接着,针对实现与上述实施例1所示的信息处理装置100同样的功能的计算机的硬件结构的一例进行说明。图32是示出实现与实施例1的信息处理装置同样的功能的计算机的硬件结构的一例的图。
如图32所示,计算机300具有执行各种运算处理的CPU301、受理来自用户的数据的输入的输入装置302、以及显示器303。此外,计算机300具有经由有线或无线网络而与外部装置等之间进行数据的授受的通信装置304、以及接口装置305。此外,计算机300具有暂时存储各种信息的RAM306、以及硬盘装置307。而且,各装置301~307与总线308连接。
硬盘装置307具有受理程序307a、计算程序307b、生成程序307c、分配程序307d。此外,CPU301读出各程序307a~307e并在RAM306中展开。
受理程序307a作为受理进程306a发挥功能。计算程序307b作为计算进程306b发挥功能。生成程序307c作为生成进程306c发挥功能。分配程序307d作为分配进程306d发挥功能。
受理进程306a的处理对应于受理部151的处理。计算进程306b的处理对应于计算部152的处理。生成进程306c的处理对应于生成部153的处理。分配进程306d的处理对应于分配部154的处理。
另外,关于各程序307a~307d,也可以不必从一开始就存储在硬盘装置307中。例如,也可以预先将各程序存储于向计算机300插入的软盘(FD)、CD-ROM、DVD、光磁盘、IC卡等“可移动用的物理介质”。然后,计算机300也可以读出并执行各程序307a~307d。
接下来,针对实现与上述实施例2所示的信息处理装置200同样的功能的计算机的硬件结构的一例进行说明。图33是示出实现与实施例2的信息处理装置同样的功能的计算机的硬件结构的一例的图。
如图33所示,计算机400具有执行各种运算处理的CPU401、受理来自用户的数据的输入的输入装置402、以及显示器403。此外,计算机400具有经由有线或无线网络而与外部装置等之间进行数据的授受的通信装置404、以及接口装置405。此外,计算机400具有暂时存储各种信息的RAM406、以及硬盘装置407。而且,各装置401~407与总线408连接。
硬盘装置407具有受理程序407a、第1编码程序407b、第2编码程序407c、分配程序407d。此外,CPU401读出各程序407a~407d并在RAM406中展开。
受理程序407a作为受理进程406a发挥功能。第1编码程序407b作为第1编码进程406b发挥功能。第2编码程序407c作为第2编码进程406c发挥功能。分配程序407d作为分配进程406d发挥功能。
受理进程406a的处理对应于受理部261的处理。第1编码进程406b的处理对应于第1编码部262的处理。第2编码进程406c的处理对应于第2编码部263的处理。分配进程406d的处理对应于分配部264的处理。
另外,关于各程序407a~407d,也可以不必从一开始就存储在硬盘装置307中。例如,也可以预先将各程序存储于向计算机400插入的软盘(FD)、CD-ROM、DVD、光磁盘、IC卡等“可移动用的物理介质”。然后,计算机400也可以读出并执行各程序407a~407d。
附图标记说明
100、200信息处理装置
110、210通信部
120、220输入部
130、230显示部
140、240存储部
141a第1词典数据
141b第2词典数据
142a第1训练数据
142b第2训练数据
143a第1共现率表
143b第2共现率表
144a第1类别表
144b第2类别表
145a第1向量表
145b第2向量表
146a第1文本数据
146b第2文本数据
150、260控制部
151、261受理部
152计算部
153生成部
154、264分配部
241碱基文件
242转换表
243密码子压缩文件
244密码子倒置索引
245蛋白质词典
246蛋白质HMM
247词典索引
248蛋白质压缩文件
249蛋白质倒置索引
250类别表
251向量表
262第1编码部
263第2编码部
Claims (15)
1.一种信息处理程序,其特征在于,
所述信息处理程序使计算机执行以下处理:
通过对输入文本执行词素解析而将所述输入文本分割为多个单词;
基于定义了按照每个含义划分而区分的多义词与单词的类别的共现率的共现率表、以及所述输入文本中包含的多个单词,确定所述输入文本中包含的多个单词中的多义词和所述多义词的含义划分;
对所述输入文本中包含的所述多义词分配与所述多义词的含义划分相应的向量。
2.根据权利要求1所述的信息处理程序,其特征在于,
所述信息处理程序还执行以下处理:通过执行庞加莱嵌入而计算单词的向量、按照每个含义划分而区分的多义词的向量,
分配所述向量的处理是基于计算所述向量的处理的计算结果,对所述输入文本中包含的所述多义词和所述单词分配向量。
3.根据权利要求2所述的信息处理程序,其特征在于,
所述信息处理程序还执行以下处理:
按照词库中定义的每个类别对规定的文档数据中包含的多个单词进行分类,基于所述规定的文档数据中包含的按照某个含义划分而区分的多义词与和按照所述某个含义划分而区分的多义词共现的单词的类别之间的关系,生成所述共现率表。
4.根据权利要求3所述的信息处理程序,其特征在于,
在计算所述向量的处理中,还通过所述庞加莱嵌入计算惯用语、专业术语的单词向量。
5.一种信息处理程序,其特征在于,
所述信息处理程序使计算机执行以下处理:
确定多个蛋白质的候选,该多个蛋白质的候选将排列有多个密码子的密码子文件中包含的任意的位置设为开始位置;
确定所述多个蛋白质的候选分别所属的类别;
基于所述多个蛋白质的候选分别所属的类别及所述开始位置前的蛋白质的组合、以及定义了由所述密码子的序列确定的蛋白质中接在某个蛋白质之后的蛋白质所属的类别的出现频度的表,确定所述多个蛋白质的候选中的一个蛋白质;
对确定出的蛋白质分配向量。
6.一种信息处理方法,该信息处理方法由计算机执行,其特征在于,
在所述信息处理方法中执行以下处理:
通过对输入文本执行词素解析而将所述输入文本分割为多个单词;
基于定义了按照每个含义划分而区分的多义词与单词的类别的共现率的共现率表、以及所述输入文本中包含的多个单词,确定所述输入文本中包含的多个单词中的多义词和所述多义词的含义划分;
对所述输入文本中包含的所述多义词分配与所述多义词的含义划分相应的向量。
7.根据权利要求6所述的信息处理方法,其特征在于,
在所述信息处理方法中还执行以下处理:通过执行庞加莱嵌入而计算单词的向量、按照每个含义划分而区分的多义词的向量,
分配所述向量的处理是基于计算所述向量的处理的计算结果,对所述输入文本中包含的所述多义词和所述单词分配向量。
8.根据权利要求7所述的信息处理方法,其特征在于,
在所述信息处理方法中还执行以下处理:
按照词库中定义的每个类别对规定的文档数据中包含的多个单词进行分类,基于所述规定的文档数据中包含的按照某个含义划分而区分的多义词与和按照所述某个含义划分而区分的多义词共现的单词的类别之间的关系,生成所述共现率表。
9.根据权利要求8所述的信息处理方法,其特征在于,
在计算所述向量的处理中,还通过所述庞加莱嵌入计算惯用语、专业术语的单词向量。
10.一种信息处理方法,该信息处理方法由计算机执行,其特征在于,
在所述信息处理方法中执行以下处理:
确定多个蛋白质的候选,该多个蛋白质的候选将排列有多个密码子的密码子文件中包含的任意的位置设为开始位置;
确定所述多个蛋白质的候选分别所属的类别;
基于所述多个蛋白质的候选分别所属的类别及所述开始位置前的蛋白质的组合、以及定义了由所述密码子的序列确定的蛋白质中接在某个蛋白质之后的蛋白质所属的类别的出现频度的表,确定所述多个蛋白质的候选中的一个蛋白质;
对确定出的蛋白质分配向量。
11.一种信息处理装置,其特征在于,
所述信息处理装置包括分配部,
该分配部通过对输入文本执行词素解析而将所述输入文本分割为多个单词,
基于定义了按照每个含义划分而区分的多义词与单词的类别的共现率的共现率表、以及所述输入文本中包含的多个单词,确定所述输入文本中包含的多个单词中的多义词和所述多义词的含义划分,
对所述输入文本中包含的所述多义词分配与所述多义词的含义划分相应的向量。
12.根据权利要求11所述的信息处理装置,其特征在于,
所述信息处理装置还具有计算部,该计算部通过执行庞加莱嵌入而计算单词的向量、按照每个含义划分而区分的多义词的向量,所述分配部基于计算所述向量的处理的计算结果,对所述输入文本中包含的所述多义词和所述单词分配向量。
13.根据权利要求12所述的信息处理装置,其特征在于,
所述信息处理装置还具有生成部,该生成部按照词库中定义的每个类别对规定的文档数据中包含的多个单词进行分类,基于所述规定的文档数据中包含的按照某个含义划分而区分的多义词与和按照所述某个含义划分而区分的多义词共现的单词的类别之间的关系,生成所述共现率表。
14.根据权利要求13所述的信息处理装置,其特征在于,
所述计算部还通过所述庞加莱嵌入计算惯用语、专业术语的单词向量。
15.一种信息处理装置,其特征在于,
所述信息处理装置具有分配部,
该分配部确定多个蛋白质的候选,该多个蛋白质的候选将排列有多个密码子的密码子文件中包含的任意的位置设为开始位置,
确定所述多个蛋白质的候选分别所属的类别,
基于所述多个蛋白质的候选分别所属的类别及所述开始位置前的蛋白质的组合、以及定义了由所述密码子的序列确定的蛋白质中接在某个蛋白质之后的蛋白质所属的类别的出现频度的表,确定所述多个蛋白质的候选中的一个蛋白质,
对确定出的蛋白质分配向量。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/040875 WO2022091359A1 (ja) | 2020-10-30 | 2020-10-30 | 情報処理プログラム、情報処理方法および情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116324791A true CN116324791A (zh) | 2023-06-23 |
Family
ID=81383795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080105588.0A Pending CN116324791A (zh) | 2020-10-30 | 2020-10-30 | 信息处理程序、信息处理方法以及信息处理装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230205993A1 (zh) |
EP (1) | EP4239517A4 (zh) |
JP (1) | JP2024113201A (zh) |
CN (1) | CN116324791A (zh) |
AU (1) | AU2020474963B2 (zh) |
WO (1) | WO2022091359A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273015B (zh) * | 2023-11-22 | 2024-02-13 | 湖南省水运建设投资集团有限公司 | 一种语义分析的电子文件归档分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6062816B2 (ja) | 2013-07-17 | 2017-01-18 | 株式会社デンソーアイティーラボラトリ | 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム |
JP2018206263A (ja) | 2017-06-08 | 2018-12-27 | 日本電信電話株式会社 | 述語項構造モデル生成装置、述語項構造解析装置、方法、及びプログラム |
AU2018433736B2 (en) * | 2018-07-23 | 2022-05-12 | Fujitsu Limited | Generating method, generating program, and information processing apparatus |
-
2020
- 2020-10-30 CN CN202080105588.0A patent/CN116324791A/zh active Pending
- 2020-10-30 WO PCT/JP2020/040875 patent/WO2022091359A1/ja active Application Filing
- 2020-10-30 AU AU2020474963A patent/AU2020474963B2/en active Active
- 2020-10-30 EP EP20959877.0A patent/EP4239517A4/en active Pending
-
2023
- 2023-02-28 US US18/115,007 patent/US20230205993A1/en active Pending
-
2024
- 2024-06-14 JP JP2024096762A patent/JP2024113201A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
AU2020474963B2 (en) | 2024-02-08 |
AU2020474963A1 (en) | 2023-05-04 |
JPWO2022091359A1 (zh) | 2022-05-05 |
WO2022091359A1 (ja) | 2022-05-05 |
US20230205993A1 (en) | 2023-06-29 |
AU2020474963A9 (en) | 2024-10-10 |
EP4239517A4 (en) | 2023-11-08 |
EP4239517A1 (en) | 2023-09-06 |
JP2024113201A (ja) | 2024-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
Steiner et al. | A pipeline for computational historical linguistics | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN109522338A (zh) | 临床术语挖掘方法、装置、电子设备及计算机可读介质 | |
JP2024113201A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
List | Network Perspectives on Chinese Dialect History: Chances and Challenges | |
EP3125143A1 (en) | Method, device and program for generating reference genome data, method, device and program for generating differential genome data, and method, device and program for restoring data | |
US20220139386A1 (en) | System and method for chinese punctuation restoration using sub-character information | |
Priya | Emoji based sentiment analysis using KNN | |
Ciobanu et al. | Automatic discrimination between cognates and borrowings | |
Bhattacharya et al. | Studying language evolution in the age of big data | |
CN113255345B (zh) | 一种语义识别方法、相关装置以及设备 | |
CN113609865A (zh) | 文本情感的识别方法、装置、电子设备及可读存储介质 | |
CN114020907A (zh) | 信息抽取方法、装置、存储介质与电子设备 | |
JP2019215660A (ja) | 処理プログラム、処理方法および情報処理装置 | |
CN110941638A (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
Meloni et al. | Ab antiquo: Proto-language reconstruction with rnns | |
KR102355731B1 (ko) | 해석 프로그램, 해석 방법 및 해석 장치 | |
CN115510860A (zh) | 一种文本情感分析方法、装置、电子设备及存储介质 | |
CN113705568A (zh) | 文字识别网络训练方法、装置、计算机设备及存储介质 | |
WO2021245926A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
CN116383428B (zh) | 一种图文编码器训练方法、图文匹配方法及装置 | |
CN114238663B (zh) | 一种材料数据用知识图谱分析方法、系统、电子设备及介质 | |
CN116701640B (zh) | 水印识别模型生成方法、水印识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |